中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出
4月27日,在(zài)中关村(cūn)论(lùn)坛未来人(rén)工智能先锋论 坛上,生数科技(jì)联合清(qīng)华大(dà)学正式发布中国首(shǒu)个长时(shí)长、高一致性、高动态性视频大模型——Vidu。该模型(xíng)采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长(zhǎng)达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能(néng)够模拟真实物理世界(jiè),还拥有丰富想象力,具备(bèi)多镜头生成(chéng)、时空一致性高等特点。Vidu是自(zì)Sora发(fā)布之后全球率先(xiān)取得重大突破的视频大模(mó)型,性能全面对标国(中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出guó)际顶尖水平,并在加速迭代提升中。
与Sora一致,Vidu能够根据提 供的文本描述直(zhí)接生成长(zhǎng)达16秒的(de)高质量视频。除了在时长方面的突破外,Vidu在视(shì)频效(xiào)果 方面实现显著提升,主要(yào)体(tǐ)现在几个方面:第一、模拟真实物理世界:能够生(shēng)成细节复杂的(de)场景,且符合真实的物理规律(lǜ),例如合理的(de)光影效果、细腻(nì)的人物表情等;第二、具(jù)有丰富想象力:能够生成真实世界不(bù)存在的(de)虚构画(huà)面,创造出具有深度和复杂性的超现实主义内容;第(dì)三(sān)、多镜头(tóu)语言:能够生(shēng)成复杂的动态镜头(tóu),不再局限于简单 的推、拉、移等固定镜头,而是能够围绕统一主体(tǐ)在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接(jiē)生成长镜头、追焦、转场等效(xiào)果,给视频注入镜头语言;第四、时空一致性高:在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间(jiān)、空间中能够保(bǎo)持一致;第五、理解中国元素:能够生成特有的中国元素(sù),例(lì)如熊(xióng)猫、龙等。
值得(中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出dé)一提的(de)是,短片中的 片(piàn)段都(dōu)是(shì)从头到尾连续生成,没有明显的插(chā)帧现象,从这种“一镜到底”的表(biǎo)现能够推测出,Vidu采用的是“一步到位”的生成方(fāng)式,与Sora一(yī)样,文本到视频的转(zhuǎn)换是直接且连续的,在(zài)底层算法(fǎ)实(shí)现上是基于单一(yī)模(mó)型完全端到端(duān)生成,不(bù)涉及中间的插帧和其他多步骤(zhòu)的处理(lǐ)。
Vidu的快速突破源(yuán)自于团队在贝叶斯机器学习和(hé)多(duō)模态大模型的长(zhǎng)期积累和多项(xiàng)原(yuán)创性(xìng)成果。其核心技(jì)术U-ViT架构由团(tuán)队于2022年9月提出,早于Sora采(cǎi)用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全(quán)由团(tuán)队(duì)自主研发。
2023年3月,团队开源全球(qiú)首个 基(jī)于U-ViT架构的多模态扩散大模型UniDiffuser,在(zài)全(quán)球(qiú)范围内率先完成(chéng)融合架(jià)构的大(dà)规模可扩展性(Scaling Law)验证。UniDiffuser是(shì)在大规模图文数据集 LAION-5B上训练出 的近10亿参数量模型,支持图(tú)文模态间的任意生成(chéng)和转换。在架构上,UniDiffuser比同样DiT架(jià)构的Stable Diffusion 3领先了一年。
自今(jīn)年2月(yuè)Sora发布推出后(hòu),团队基(jī)于对(duì)U-ViT架构的深入理解以及长期积累(lèi)的工程与数据经验,在(zài)短(duǎn)短两个月进一步突破长(zhǎng)视频表示与处理关键(jiàn)技(jì)术(shù),研发推出Vidu视频大模型,显(xiǎn)著(zhù)提升视频的连贯(guàn)性与动态性。
从图文任务的统一到(dào)融(róng)合视频能力,作为通用视觉模型,Vidu能够(gòu)支持生成更加多样化、更长时长的视频内容(róng),同时(shí)面向未来,灵活架构也将能够兼容更广泛(fàn)的(de)模态(tài),进一步拓展多模态通用能力的边界。
Vidu的问世,不仅(jǐn)是U-ViT融合架构在(zài)大规模视觉任(rèn)务中的又(yòu)一次成(chéng)功验(y中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出àn)证,也代表了生数(shù)科技在多模态(tài)原生大模型领域的持续创新能(néng)力和领先性。同时生数科技表示,大(dà)模(mó)型的(de)突破是一个多维度、跨(kuà)领域的综(zōng)合性过程,需要技术与(yǔ)产业应(yīng)用的深度融合。生数科技正式推出“Vidu大模型合作(zuò)伙伴计划”,希望产业链上下游企(qǐ)业、研究机构能一起加入,共同构建合作生态。
校对:廖胜超(chāo)
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了