中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出

4月27日，在中关(guān)村论坛未来人工智能先锋论坛上(shàng)，生数科(kē)技联(lián)合清华大学正式发布中国(guó)首个长时长(zhǎng)、高一(yī)致性、高(gāo)动态(tài)性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合(hé)的架构U-ViT，支持一键生成长达16秒、分辨率高(gāo)达1080P的高清视(shì)频内容。Vidu不仅(jǐn)能够模拟真实物理世界，还拥(yōng)有丰富想象力，具备多镜头生成、时空一致性(xìng)高等特点。Vidu是自Sora发布之后全球率先取得重(zhòng)大突破(pò)的视频大模(mó)型，性能全面(miàn)对标国际顶尖(jiān)水平，并(bìng)在加速迭代提升中。

与Sora一致，Vidu能(néng)够根据提供的(de)文(wén)本描述直接生成长达16秒的高质量(liàng)视频。除了在时长方面(miàn)的突(tū)破外，Vidu在视频效果方面实现显著提升，主要体现在几(jǐ)个方(fāng)面：第(dì)一、模(mó)拟真实物理(lǐ)世界：能够生成细节复杂(zá)的场景，且(qiě)符合(hé)真实的物理规(guī)律，例如合理的光影(yǐng)效果、细(xì)腻的人物表情等；第二、具(jù)有丰富想(xiǎng)象力：能够生成真实世界不存在(zài)的虚构画面，创造出具有深度和复杂性的超现实主义内容；第三(sān)、多镜头语(yǔ)言：能够生成(chéng)复杂的动态镜头，不再局(jú)限于简单的推、拉、移等固定镜头，而是能够围绕统一主(zhǔ)体在一段画面里就实现(xiàn)远景、近(jìn)景(jǐng)、中景、特写等不同镜头的切换，包括能直(zhí)接生成长(zhǎng)镜头、追焦(jiāo)、转场等效果，给视(shì)频注入镜头语言；第(dì)四、时空一致性高：在16秒(miǎo)的(de)时长(zhǎng)上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致；第五、理解(jiě)中(zhōng)国(guó)元素：能够生成特有(yǒu)的(de)中(zhōng)国元素，例如熊猫、龙等。

值得一(yī)提的是，短片中的(de)片段都是从头到尾连续生成，没有明(míng)显的插帧现(xiàn)象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成(chéng)方式(shì)，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基(jī)于单(dān)一模型完(wán)全端到端(du中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出ān)生成，不涉及中间的插帧和其他(tā)多步(bù)骤的处理。

Vidu的快速突破源(yuán)自于(yú)团队(duì)在(zài)贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其(qí)核心技术U-ViT架(jià)构由团队于2022年(nián)9月提(tí)出，早于Sora采用的DiT架构，是全球首个(gè)Diffusion与Transformer融合的架构，完全由团队自主研发。

2023年(nián)3月(yuè)，团队开(kāi)源全球(qiú)首个基于U-ViT架(jià)构的多模态扩散大模型(xíng)UniDiffuser，在全球范围内率先(xiān)完成融合架构的(de)大规模可扩展性（Scaling Law）验证。UniDiffuser是(shì)在大规模图(tú)文数据(jù)集LAION-5B上训练出的近10亿参数(shù)量模型，支持图文模态中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出间(jiān)的任意生成和转(zhuǎn)换。在(zài)架构上，UniDiffuser比同样DiT架构的Stable Diffusion 3领先(xiān)了一年。

自今年2月Sora发布推出后，团队(duì)基于对 U-ViT架(jià)构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长(zhǎng)视频表示与处(chù)理关键技术，研发推出Vidu视频大模型，显著提升视频的(de)连贯性(xìng)与动态性。

从图文任务的统一(yī)到融合视频(pín)能力，作(zuò)为通用视觉(jué)模(mó)型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向(xiàng)未来，灵活架构也将能够(gòu)兼容更广泛(fàn)的模态，进一步拓展多模(mó)态通用(yòng)能力的边界(jiè)。

Vidu的问世，不仅是U-ViT融合架构在大规模视(shì)觉任务中的又(yòu)一次成功验(yàn)证，也代表(biǎo)了生数科技在多模态原生大模型领域的持续创新能力和领先(xiān)性。同时生数科技表示，大模型的突破是一个多维(wéi)度、跨领(lǐng)域的综合性过程，需(xū)要(yào)技术与产业应用的深度融(róng)合。生数科技正式推出“Vidu大模型合作伙伴计划(huà)”，希望产(chǎn)业链上(shàng)下游企业、研(yán)究机构(gòu)能一(yī)起(qǐ)加入，共同构建(jiàn)合作生态。

校(xiào)对(duì)：廖胜超

未经允许不得转载：橘子百科-橘子都知道中国首个Sora级视频大模型Vidu发布生数科技与清华联合推出