AI视频“卷”成红海，创业公司还有机会吗

来源：@经济观察报微(wēi)博

经(jīng)济观察(chá)网记者任晓宁 9月11日，AI视频创业公司生数科技创始团队在北京亮(liàng)相，这(zhè)是今年(nián)4月份在中关村论(lùn)坛一炮(pào)而(ér)红后，生数科技团队成员的首次露面。

生数科技的产品名为Vidu，是国内首个长时长、高一致性、高动态性视频大模型，当时备受外界关注。不过时至(zhì)9月，AI视频行业已(yǐ)经有了很大变化，Vidu不再一枝独(dú)秀，快手、字节跳动、阿里巴巴、智谱AI、MiniMax、商汤等公司都(dōu)已(yǐ)经推出AI视频产品(pǐn)。据经(jīng)济观察报(bào)不完全统计，仅在国(guó)内，过去4个月时间便有超(chāo)过10家(jiā)公司推出了自研AI视频产品。

东吴(wú)证券今年(nián)8月发(fā)布的国产(chǎn)AI视频(pín)大模型深度(dù)报告测算，AI视频的潜在行业空(kōng)间为3178亿元。东吴证券还估算，在全AI模(mó)式(shì)下，电影(yǐng)、长剧、动画片和短剧的制作成(chéng)本，相较传统模式将下降超过95%。

AI视频的未来听起来很美(měi)好，但这个领域，目前并没有出现一个出圈的爆款应用(yòng)。无论是AI视频产品还是由AI生成的视频(pín)作品(pǐn)，都像(xiàng)是少数影视专业人士的玩(wán)具，局限在小圈子范(fàn)围(wéi)内，始终未(wèi)能(néng)像ChatGPT（美国头部AI应用）一样在大众层面获得认可。

AI视频赛道能成为大众市场吗？它(tā)的商业机会在(zài)哪里？大厂入局之后，它的市场竞争愈加激烈(liè)，创业公司还有机会吗？生数科(kē)技CEO唐家渝接受经济观察报(bào)在内的媒体(tǐ)采访时(shí)，回应了上述问题。

关于竞争和融资

经济观(guān)察报：Vidu发布4个月(yuè)以来(lái)，国内陆续出现很多AI视频公(gōng)司，头部大(dà)厂也都推出(chū)了AI视频产品。作为曾经的黑马，Vidu现在还(hái)有优势吗(ma)？

唐家渝：目前在AI视频语义理解方面，我们(men)能做到业界最好(hǎo)。另外Vidu在视频动作(zuò)幅度(dù)较大的情况下，能保持较好的连贯性，用户公认这一点我们(men)做得好。我们(men)最近发布了AI视频主体(tǐ)参照一致性生成能力，这(zhè)是(shì)全球(qiú)首发(fā)的能力，可以解决AI生成(chéng)视频(pín)的剧情连(lián)贯性问题。从这些技术角度，我们是有优势的。

Vidu在全球最早提出了Diffu－sion（扩散模型）与Transformer（一种基(jī)于自注(zhù)意力机制的深度学习模型）融合的底层架构(gòu)U-ViT，并坚(jiān)持(chí)自(zì)主的底(dǐ)层算法研发，没有采用开源结构(gòu)，这也是我们的底气。

经济观察报：国内AI视(shì)频公司已经有10多家，大家的技术路线(xiàn)和商业化路径会不(bù)会出现(xiàn)同(tóng)质化趋(qū)势(shì)？

唐(táng)家渝：在技术路线上，AI视频行业目(mù)前处于(yú)底层(céng)架(jià)构收敛的状态(tài)，可(kě)以理解为同质化，但并不意味着大家进展都一(yī)样。例如现在的大(dà)语言模型都会(huì)使用 Transformer架构，但OpenAI（美国头部(bù)AI公司）是明显领先的。

在底层架构统一的基础上，各个(gè)公司(sī)会有一些差异性。例如，如何(hé)有效(xiào)压缩视频，如何在保证质量(liàng)的情况下快速生成视频，会涉及非常多算法(fǎ)技巧、算法(fǎ)难点，这是导致差(chà)异性的主要原因。

目前各个公司的商业方向也是比较(jiào)类似的(de)，即便是Sora、Runway等国外AI视频应用(yòng)，也都在积极地拥抱好莱坞，或者与广告公司合作，这是AI视频技术(shù)比较好落地的领(lǐng)域。总体(tǐ)来说，AI视频还处于行业发展前期，还有很长的路要走。

经济观察报：今年6月，生数科技公布了数亿元融资，接下来会有什么样的融资规划？今年大模型公司(sī)融资都面临一个困境(jìng)，很难依靠技术和团队吸引投资，投资方(fāng)会要(yào)求商业化能力。你们是否也面临同样的问题？

唐家渝：我们正在做新一轮的(de)融资。融资过程中(zhōng)，技术(shù)仍是很关键的东西，目前的AI视频生(shēng)成只(zhǐ)是初步符合了物理(lǐ)规律，还有(yǒu)很高(gāo)的技术天花(huā)板需要突破(pò)，比如更(gèng)强的(de)模型能力(lì)以及更多模态的(de)协同生成。

我们经过一年半的成长，在商业化方面已经阶段性交出了比较好的答卷。其(qí)实大(dà)家耳熟(shú)能详(xiáng)的一些大客户(hù)，已经接入了Vidu的(de)底层(céng)视频生产能力了，只是我们目(mù)前还不(bù)能公布。

经济观察报：你们会如何选择投资者？有什么考量？

唐家渝：我们会更(gèng)愿(yuàn)意选择长期陪伴的投资者，无论是从(cóng)资源、战略协同上，还是(shì)上下游产业上(shàng)，我(wǒ)觉得都(dōu)可以(yǐ)接AI视频“卷”成红海，创业公司还有机会吗受，最(zuì)主要的还是希望大家能有长期一起往前走的(de)机(jī)会。

关于商业化

经济观察报：现在Vidu是否已经商业化？有哪些已经落地的商(shāng)业场景(jǐng)？

唐家渝：商业模(mó)式主要(yào)有两种。一种是SaaS（软件即服务）订阅模式，用户打开Vidu.studio可以直接(jiē)体验到产(chǎn)品功(gōng)能。目前我们每月有(yǒu)80个免费积分，如果用户有更多的需(xū)求或想(xiǎng)使用(yòng)更高级的(de)能力，就需要支付订阅费用。另一种是API（应用程(chéng)序编程接口(kǒu)）形式，将模型(xíng)能力输出形式提供给大(dà)家，即(jí)MaaS（模型即服务）。现(xiàn)在有很多客户需要具备(bèi)视频生(shēng)成(chéng)的能力(lì)，作为他们已有(yǒu)工(gōng)作流程的一个环节，所以他们希望直接调用(yòng)模型的能力。

我们的客户主要来(lái)自与视频(pín)内容相关的领(lǐng)域，比如广告(gào)、游(yóu)戏、短剧和影视等。另一(yī)部分客户是C端（个人用(yòng)户端）应用，他们需要AI视频(pín)能(néng)力支撑(chēng)他们的新(xīn)玩法。

经济观察报：在C端市场和B端（企业客户端(duān)）行业，哪个领域的AI视AI视频“卷”成红海，创业公司还有机会吗频增长潜力更大？

唐家渝：B端的需求比较稳定、确定，能带来(lái)比(bǐ)较直接的收入。在接触B端行(xíng)业的过程中，我们发现，他们提出的都是实(shí)实在在的需求(qiú)，并不是还没想清楚就简(jiǎn)单试一下，所以B端(duān)是我们长期重(zhòng)点关注的(de)方向。

上线一个月以(yǐ)来，我们的C端用户增长曲(qū)线非常高。所以，我(wǒ)们也(yě)在不断探索C端(duān)商业化的过程(chéng)中。

经济观察报：现在AI视频主(zhǔ)要是艺术家、影视专业人员在用，普(pǔ)通人用一下(xià)就不用了。这个工具什么时候能普及到大(dà)众？会不(bù)会一直只是小众人群(qún)的玩具？

唐家渝：AI视频不会一直都(dōu)是小众产品。就像拍照一样，一开始只是摄影爱好者或摄影师群体(tǐ)使用，现(xiàn)在拍(pāi)视频、拍照已经成为每个人的习惯。

现在的AI视频已经发展(zhǎn)到了(le)一个节点，Vidu最新发布的功(gōng)能是，只需(xū)输入(rù)一(yī)张图像，就(jiù)可以保(bǎo)持该主体的一致性，生成各种场景的视频。我们正在努力降低视频创作的门槛，让Vidu成为一个大众愿意使用的产(chǎn)品，今(jīn)年年底应该就能普及到大众。

关于局(jú)限和突(tū)围

经济观察报(bào)：很(hěn)多人觉得用(yòng)AI生成视(shì)频很(hěn)难，为什(shén)么会这样？视(shì)频生成技术还存(cún)在怎样的局(jú)限性或(huò)瓶颈？

唐家渝：目前的视频生成模型最大的局(jú)限性在于可控性不足。比如(rú)生成一段画(huà)面，画(huà)面里的人物(wù)或者对象容易崩坏，生成的结果也有很大的随机性，需要不断地尝(cháng)试，这背后(hòu)的本(běn)质是目前视(shì)频生成技术的稳定性还(hái)不(bù)够。

从实(shí)际落地的层(céng)面上看，上面我们提到的广告(gào)、短剧等场景(jǐng)，对画面连(lián)续性、一致性的(de)要求是很高(gāo)的。即便是C端用户单纯去玩(wán)，也会希望能一次性就生成一个他们想要的画面，这(zhè)背(bèi)后都是围绕可控性的需求。

经济观察报：这种不可控的瓶颈能否实现突破？如果技术继续进(jìn)步，会在哪(nǎ)些方面有所提高？

唐家(jiā)渝：我们刚刚发布的主体参照功能，已经在一致性(xìng)生成方面(miàn)带来了很大提(tí)升(shēng)。

当然，技术还有更进(jìn)一步提升的空间。比如(rú)一个精(jīng)雕(diāo)细琢的柜子，上面(miàn)有繁复花纹和镂空部分，对于这样复(fù)杂的结构，目前(qián)AI视频生成成功的概率(lǜ)依旧不高。场景生成包含很多组成因素，例如(rú)AI视频(pín)生成的一款运(yùn)动鞋，我希(xī)望它能(néng)在更(gèng)复杂(zá)、更动(dòng)态化的场景中有更好的表现。这些都需要不断提升模型能力。

未经允许不得转载：橘子百科-橘子都知道 AI视频“卷”成红海，创业公司还有机会吗