中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出
4月27日,在中关(guān)村论坛未来人工智能先锋论坛上(shàng),生数科(kē)技联(lián)合清华大学正式发布中国(guó)首个长时长(zhǎng)、高一(yī)致性、高(gāo)动态(tài)性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合(hé)的架构U-ViT,支持一键生成长达16秒、分辨率高(gāo)达1080P的高清 视(shì)频内容。Vidu不仅(jǐn)能够模拟真实物理世界,还拥(yōng)有丰富想象力,具备多镜头生成、时空一致性(xìng)高等特点。Vidu是自Sora发布之后全球率先取得重(zhòng)大突破(pò)的视频大模(mó)型,性能全面(miàn)对标国际顶尖(jiān)水平,并(bìng)在加速迭代提升中。
与Sora一致,Vidu能(néng)够根据提供的(de)文(wén)本描述直接生成长达16秒的高质量(liàng)视频。除了在时长方面(miàn)的突(tū)破外,Vidu在视频效果方面实现显著提升,主要体现在几(jǐ)个方(fāng)面:第(dì)一、模(mó)拟真 实物理(lǐ)世界:能够生成细节复杂(zá)的场景,且(qiě)符合(hé)真实的物理规(guī)律,例如合理的光影(yǐng)效果、细(xì)腻的人物表情等;第二、具(jù)有丰 富想(xiǎng)象力:能够生成真实世界不存在(zài)的虚构画面,创造出具有深度和复杂性的超现实主义内容;第三(sān)、多镜头语(yǔ)言:能够生成(chéng)复杂的动态镜头,不再局(jú)限于简单的推、拉、移等固定镜头,而是能够围绕统一主(zhǔ)体在一段画面里就实现(xiàn)远景、近(jìn)景(jǐng)、中景、特写等不同镜头的切换,包括能直(zhí)接生成长(zhǎng)镜头、追焦(jiāo)、转场等效果,给视(shì)频注入镜头语言;第(dì)四、时空一致性高:在16秒(miǎo)的(de)时长(zhǎng)上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致;第五、理解(jiě)中(zhōng)国(guó)元素:能够生成特有(yǒu)的(de)中(zhōng)国元素,例如熊猫、龙等。
值得一(yī)提的是,短片中的(de)片段都是从头到尾连续生成,没有明(míng)显的插帧现(xiàn)象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成(chéng)方式(shì),与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基(jī)于单(dān)一模型完(wán)全端到端(du中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出ān)生成,不涉及中间的插帧和其他(tā)多步(bù)骤的处理。
Vidu的快速突破源(yuán)自于(yú)团队(duì)在(zài)贝叶斯机 器学习和多模态大模型的长期积累和多项原创性成果。其(qí)核心技术U-ViT架(jià)构由团队于2022年(nián)9月提(tí)出,早于Sora采用的DiT架构,是全球首个(gè)Diffusion与Transformer融合的架构,完全由团队自主研发。
2023年(nián)3月(yuè),团队开(kāi)源全球(qiú)首个基于U-ViT架(jià)构的多模态扩散大模型(xíng)UniDiffuser,在全球范围内率先(xiān)完成融合架构的(de)大规模可扩展性(Scaling Law)验证。UniDiffuser是(shì)在大规模图(tú)文数据(jù)集LAION-5B上训练出的近10亿参数(shù)量模型,支持图文模态中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出间(jiān)的任意生成和转(zhuǎn)换。在(zài)架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先(xiān)了一年。
自今年2月Sora发布推出后,团队(duì)基于对 U-ViT架(jià)构的深入理解以及 长期积累的工程与数据经验,在短短两个月进一步突破长(zhǎng)视频表示与处(chù)理关键技术,研发推出Vidu视频大模型,显著提升视频的(de)连贯性(xìng)与动态性。
从图文任务的统一(yī)到融合视频(pín)能力,作(zuò)为通用视觉(jué)模(mó)型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向(xiàng)未来,灵活架构也将能够(gòu)兼容更广泛(fàn)的模态,进一步拓展多模(mó)态通用(yòng)能力的边界(jiè)。
Vidu的问世,不仅是U-ViT融合架构在大规模视(shì)觉任务中的又(yòu)一次成功验(yàn)证,也代表(biǎo)了生数科技在多模态原生大模型领域的持续创新能力和领先(xiān)性。同时生数科技表示,大模型的突破是一个多维(wéi)度、跨领(lǐng)域的综合性过程,需(xū)要(yào)技术与产业应用的深度融(róng)合。生数科技正式推出“Vidu大模型合作伙伴计划(huà)”,希望产(chǎn)业链上(shàng)下游企业、研(yán)究机构(gòu)能一(yī)起(qǐ)加入,共同构建(jiàn)合作生态。
校(xiào)对(duì):廖胜超
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了