橘子百科-橘子都知道橘子百科-橘子都知道

中国首 个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首 个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月27日(rì),在中关村论坛未来人工智能先锋论坛上,生数(shù)科技联合清华大学正(zhèng)式发 布中国首个长时长、高一致性、高动态性视频大(dà)模型(xíng)——Vidu。该模型采(cǎi)用团队原创的(de)Diffusion与(yǔ)Transformer融合的架构U-ViT,支持一键生成(chéng)长达16秒、分辨率高达(dá)1080P的高清视频内容。Vidu不仅能 够模拟真实物理世界(jiè),还拥有丰富想象力,具备多镜头生成、时空一(yī)致性高等特点。Vidu是(shì)自Sora发布之后全球率(lǜ)先取得(dé)重(zhòng)大突破的视频大(dà)模(mó)型,性能全面对标国际顶尖水平,并在加速迭代提升(shēng)中(zhōng)。

与Sora一(yī)致(zhì),Vidu能够根据提供的文(wén)本描述 直接生成长达16秒的高质量(liàng)视频。除了在时长(zhǎng)方面的突破外(wài),Vidu在视频效果方面实现显著提升,主要体现(xiàn)在(zài)几个方面:第一(yī)、模拟(nǐ)真实物理世界(jiè):能 够生成细节(jié)复杂的场景,且符合真实的(de)物理规律,例如合理的光影效果、细腻的人物表情等;第二、具有丰富想象力:能够生成真实世界(jiè)不存在的虚构画面,创造出 具有(yǒu)深度和复杂性的超(chāo)现实主义内容;第三、多镜头语言:能(néng)够(gòu)生成复杂(zá)的(de)动态镜头,不再局限于简单的推、拉、移等固(gù)定镜头,而是能够围绕(rào)统一主体在一段画面里(lǐ)就实现远景、近景、中景(jǐng)、特写等不同镜头的切(qi中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出è)换 ,包括能直接生成长镜头、追焦、转场等效果,给视频注(zhù)入镜(jìng)头语言;第四、时空一致性高:在16秒的时长上保持连贯(guàn)流畅,随(suí)着镜头的移动,人物和场景(jǐng)在时间、空(kōng)间中能够保 持(chí)一致;第五、理解中国元素(sù):能够生(shēng)成(chéng)特有的中(zhōng)国元素,例(lì)如(rú)熊猫、龙(lóng)等。

值得一提的是,短片中 的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底(dǐ)”的表现能够推测出(chū),Vidu采用(yòng)的是“一(yī)步到位”的生成方式,与Sora一样,文本到(dào)视频的转换是直接且连续的,在底层算法(fǎ)实(shí)现上是基于单一模(mó)型完全端到端生(shēng)成(chéng),不涉及中间的插帧和其他多步骤的处理。 

Vidu的快速突破源自于团队在贝叶斯机器学习和 多模(mó)态大模型的长期积累和多(duō)项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早(zǎo)于Sora采用的DiT架构(gòu),是全球首个Diffusion与Transformer融合的架构,完全由团队自(zì)主研发。

2023年3月,团队开源全球首个基于U-ViT架构的多模(mó)态扩散(sàn)大模型UniDiffuser,在全球范围内率先完成 融合架构(gòu)的大规(guī)模可中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出扩展(zhǎn)性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图(tú)文模态间的任意生(shēng)成(chéng)和转换。在(zài)架构上,UniDiffuser比同(tóng)样DiT架构的Stable Diffusion 3领先了一年。

自今年(nián)2月Sora发布(bù中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出)推出后,团队基于对U-ViT架构的深入理解以(yǐ)及长期(qī)积累的工程与(yǔ)数据经验,在短短两(liǎng)个月进一步突破长视频表(biǎo)示与处理关键技术,研发推出Vidu视频大(dà)模型,显著提升视频的连贯(guàn)性与动(dòng)态性。

从(cóng)图文任务(wù)的统(tǒng)一(yī)到融合视频(pín)能力,作为通用视觉模型,Vidu能够支(zhī)持生成更(gèng)加多样化、更长时长的视频内容,同时面向未来,灵活架构也将(jiāng)能够兼容更广泛的模态,进一步拓展多模态通(tōng)用(yòng)能力的边界。

Vidu的问世,不仅是U-ViT融合(hé)架构在大规 模视觉任务中的又(yòu)一次成(chéng)功验(yàn)证,也代表了生数科技(jì)在多模(mó)态原生大模(mó)型(xíng)领域的持续创新能力和领先性。同(tóng)时生数科技表示,大模型的突破是一个多维度、跨领域的综合(hé)性(xìng)过程,需要技(jì)术与产业应用的深度融(róng)合。生数科技(jì)正(zhèng)式推出“Vidu大模(mó)型合作伙伴计划”,希望产业(yè)链上下游企业、研(yán)究机构(gòu)能一起加入,共同构建合作生态(tài)。

校对:廖(liào)胜超

未经允许不得转载:橘子百科-橘子都知道 中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

评论

5+2=