中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出
4月27日,在中关(guān)村论坛未来人工智能先锋论坛上(shàng),生(shēng)数科技联(lián)合清华大学正式发布中国首个长时(shí)长、高一致性(xìng)、高(gāo)动态性视频大模型——Vidu。该模型采用团队(duì)原创的Diffusion与Transformer融合的(de)架构U-ViT,支持一(yī)键(jiàn)生成长达(dá)16秒、分辨(biàn)率高达1080P的高清视频内容。Vidu不仅能够模拟真实(shí)物理世界,还拥(yōng)有(yǒu)丰富想象力,具备多镜 头生成、时空一致(zhì)性高(gāo)等(děng)特点(diǎn)。Vidu是自Sora发布(bù)之后全球率先取得(dé)重大突破的视频大模型,性能全面(miàn)对标 国际(jì)顶尖水平,并在加速迭代提升中。
与Sora一致(zhì),Vidu能够根据提供的文本描(miáo)述直接生成(chéng)长达16秒的高质量视频。除了在时长方面(miàn)的突破外,Vidu在视频效果方面实现(xiàn)显著提升,主要体现(xiàn)在几个方面:第一、模(mó)拟(nǐ)真实物理世界:能够生(shēng)成细节复杂(zá)的(de)场景,且(qiě)符合真实的物理规律(lǜ),例如合理的光影效果、细(xì)腻的人物表情等;第二、具有(yǒu)丰富想(xiǎng)象力:能够生成(chéng)真实世界不存在的虚构画面,创造出(chū)具有深度和复杂性的超(chāo)现(xiàn)实主义内(nèi)容;第三(sān)、多镜头语言:能够生成(chéng)复杂的动态镜(jìng)头,不(bù)再局限于简单的推、拉、移等固定镜(jìng)头,而是能够围(wéi)绕统一主(zhǔ)体在一段画面里就实现远景、近景、中(zhōng)景、特写等不同镜头的切(qiè)换,包括能直接生成长镜头、追焦、转场等效果,给(gěi)视频注入镜头语言;第四、时空一(yī)致性高:在16秒的时长上保持连贯流畅(chàng),随(suí)着镜头的移动,人(rén)物和场景在时间(jiān)、空间中能够保持一致;第五、理解中国元素:能够生成特有的中(zhōng)国元素,例如熊猫、龙等。
值(zhí)得一提的是,短片中的(de)片段都是从头到(dào)尾(wěi)连续(xù)生成,没有明显的插帧现象,从这(zhè)种“一镜到底”的表(biǎo)现能够推测(cè)出(chū),Vidu采用的(de)是“一步到位”的生成方式,与Sora一样 ,文本到视频的转换是直(zhí)接(jiē)且连续的,在底层算法实现上(shàng)是基于单一模型完(wán)全端到(dào)端生成,不涉 及中间的插帧和其他多步骤的处理。
Vidu的快速突破(pò)源自于团队在贝叶斯机器学习和多模态大模(mó)型的长期(qī)积累和多项原创性成果(guǒ)。其核心技术U-ViT架构由(yóu)团队于2022年9月提出(chū),早(zǎo)于Sora采用的DiT架(jià)构(gòu),是(shì)全球 首个Diffusion与Transformer融合的架构(gòu),完全由团队自主研发。
2023年3月(yuè),团队开源全球首个基(jī)于U-ViT架构的多模态扩(kuò)散(sàn)大模型UniDiffuser,在全(quán)球范围(wéi)内率先完成融(róng)合架(jià)构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在(zài)大规模图文数(shù)据集LAION-5B上训(xùn)练出的近10亿参数量模型(xíng),支持图文模态间的任意生成和(hé)转换。在(zài)架构上,UniDiffuser比(bǐ)同样DiT架(jià)构的Stabl中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出e Diffusion 3领先了一年。
自(zì)今年2月(yuè)Sora发(fā)布推出(chū)后(hòu),团队(duì)基中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出于对U-ViT架构(gòu)的深入理解以(yǐ)及长期积累的工(gōng)程与数(shù)据经验,在短短两 个月进一步突破长视频表示与处理关键(jiàn)技术,研发推出(chū)Vidu视频大模型(xíng),显著提升视频(pín)的连贯性与动态(tài)性。
从图文任务的统一到融(róng)合视频能力,作为(wèi)通用视觉模型,Vidu能(néng)够支持生(shēng)成更加多样化、更长时长的视频内容,同(tóng)时面向未来,灵(líng)活架构也将能够兼容更(gèng)广(guǎng)泛的模态,进一步拓展多模态通用能力的边界。
Vidu的问世,不仅(jǐn)是(shì)U-ViT融(róng)合(hé)架构在大规模(mó)视觉任务中的又(yòu)一次成功(gōng)验证,也代表了生数 科技在多模态原生大模型领域的持续创新能力和领先性。同时生数科技表示,大模(mó)型的突破是一个多维度、跨领域的(de)综(zōng)合性过程,需要技(jì)术与产业应(yīng)用的深(shēn)度融(róng)合。生数科技正式推出“Vidu大模型合作伙伴计划”,希望产业链上下游企业、研究机构(gòu)能一起加入,共同构建合作(zuò)生态。
校(xiào)对:廖胜超
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了