中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出
4月27日,在中关村论坛(tán)未来(lái)人工(gōng)智(zhì)能先锋论坛上,生数科技联(lián)合清(qīng)华大学正式发布中国首个长时长、高一(yī)致(zhì)性(xìng)、高动态性视频大模型——Vidu。该(gāi)模型采用团队原创的Diffusion与Transformer融合的架构(gòu)U-ViT,支 持一键生成(chéng)长达16秒、分辨率高达1080P的高清视频 内容。Vidu不仅能够模(mó)拟真实(shí)物理世界,还拥有(yǒu)丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自(zì)Sora发(fā)布(bù)之后全球率(lǜ)先取得重大突破的视频大模型,性能全(quán)面对标国际顶尖水平,并在加速迭代提升中。
与Sora一致,Vidu能够根据提供的文本(běn)描述(shù)直接生成(chéng)长达16秒的(de)高质(zhì)量视(shì)频(pín)。除了在时长方面(miàn)的(de)突破外,Vidu在(zài)视频效果方(fāng)面(miàn)实现显著提(tí)升,主要 体现在几个方面:第一、模(mó)拟真实物理世界:能够生成细(xì)节复杂的场景,且符合真实的物理规(guī)律,例(lì)如合理的(de)光影效果、细(xì)腻的人物表情等;第二、具有(yǒu)丰(fēng)富想(xiǎng)象力(lì):能够(gòu)生(shēng)成真实世界不(bù)存(cún)在的虚构画面(miàn),创造出具有(yǒu)深度(dù)和复杂性的超现(xiàn)实主义(yì)内容;第三、多镜(jìng)头语言:能够生(shēng)成复(fù)杂的动态镜头,不再局限于简单的(de)推、拉、移等固(gù)定镜头,而(ér)是(shì)能够围绕统一(yī)主体在一段画(huà)面里就(jiù)实现远景、近景(jǐng)、中景、特写(xiě)等(děng)不同镜(jìng)头的切换,包括(kuò)能直接生成长镜头、追焦、转场等(děng)效(xiào)果,给视频注入镜头语言;第四、时空一(yī)致性高:在16秒(miǎo)的时长上保持连贯流畅,随着(zhe)镜头的移动,人物和场景在时(shí)间(jiān)、空间中能(néng)够保持一致(zhì);第五、理解中(zhōng)国元(yuán)素:能够生成特有的中国(guó)元素,例如熊猫、龙等(děng)。
值得一提的是,短片中的片段都是从头(tóu)到(dào)尾(wěi)连续(xù)生成(chéng),没有明显的插帧现象(xiàng),从这种(zhǒng)“一镜到底”的表现能(néng)够(gòu)推测出,Vidu采用的(de)是“一步到(dào)位”的生(shēng)成方式,与Sora一样,文本到视频的(de)转换是直接且连续的,在底层算法实现上是基于单一模(mó)型完全端到端生(shēng)成,不涉及(jí)中间(jiān)的插帧和其(qí)他多步骤(zhòu)的处理。
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的 长期积累(lèi)和多项原(yuán)创性成果。其(qí)核(hé)心技术U-ViT架构由团队于2022年9月提出,早(zǎo)于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团(tuán)队(duì)自主研发。
2023年3月,团队开源全球首个基于U-ViT架构的多 模态扩散大模型(xíng)UniDiffuser,在全球范围内率先完成融合(hé)架(jià)构的大规模可扩展性(Scaling Law)验(yàn)证。UniDiffuser是在大规模图文数据集LAION-5B上(shàng)训练(liàn)出的近(jìn)10亿参数量模型,支中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出持图文模态间的任意(yì)生成和转换。在架(jià)构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一(yī)年。
自今年2月(yuè)Sora发布推出后,团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验(yàn),在短短(duǎn)两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型(xíng),显著提升视频的连贯(guàn)性与动态性。
从图文任务(wù)的统(tǒng)一到融(róng)合视频能力,作为(wèi)通用视觉模型,Vidu能够支持生成更加(jiā)多样(yàng)化、更长时长的视频内容,同(tóng)时面向未来(lái),灵活架(jià)构也将能够兼(jiān)容更广泛(fàn)的模态,进一步拓展多模(mó)态(tài)通用能力的边界(ji中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出è)。
Vidu的问世,不仅是U-ViT融合架构(gòu)在大规模视 觉任务中的又(yòu)一次成功(gōng)验证,也代表了生数科技在多模态原生大模(mó)型领(lǐng)域的持续创(chuàng)新能力和领先性。同时生数科技表示,大模型的突破(pò)是一个多维度、跨领域的(de)综合性过程,需(xū)要技(jì)术与产业应用的(de)深度融合(hé)。生数 科技正式推出(chū)“Vidu大(dà)模(mó)型合作伙(huǒ)伴计划(huà)”,希望产业(yè)链(liàn)上下游企业(yè)、研究机构能一(yī)起(qǐ)加入,共(gòng)同构建合(hé)作生态。
校对:廖胜超(chāo)中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出p>
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了