AI视频“卷”成红海，创业公司还有机会吗

来源：@经济观察报微博

经济(jì)观察网记者任(rèn)晓宁 9月11日，AI视频创业(yè)公司生数(shù)科技创始团队(duì)在北京亮相，这是今(jīn)年4月份在中关(guān)村论坛一炮(pào)而红后，生数科技团队成(chéng)员的首次露面。

生数科技的产品名为Vidu，是国内首个长时长、高一致性、高动态性视频大模型，当时备受外界关注。不过时(shí)至9月，AI视(shì)频行业已(yǐ)经有了很大变化，Vidu不再一枝独秀，快(kuài)手、字节跳动(dòng)、阿里巴巴、智谱AI、MiniMax、商汤等公司都已经推出(chū)AI视频产品。据经济观察报不完全统计(jì)，仅在国内，过去4个(gè)月时间便有超过(guò)10家公司推(tuī)出了自研AI视频产(chǎn)品。

东吴证券今年(nián)8月发布的国产AI视频大模型(xíng)深度报告(gào)测算，AI视频的潜在行业空间为3178亿元。东吴证券还估算(suàn)，在全AI模式下，电影、长剧、动画(huà)片和短剧(jù)的制作成本，相较(jiào)传统模式将下降(jiàng)超过95%。

AI视(shì)频的未来听起来很美好，但这个领域，目前并没有出现一(yī)个出圈的爆款应用。无论是AI视频产品还是(shì)由(yóu)AI生成的视频作品，都像是少数影(yǐng)视专业人士(shì)的玩具，局限在小圈子范围内，始终未能像ChatGPT（美国头部AI应用）一样在大众层面获(huò)得认可(kě)。

AI视频赛道能成为(wèi)大众(zhòng)市场(chǎng)吗？它的商(shāng)业机(jī)会在哪(nǎ)里？大厂入局之后，它的市场(chǎng)竞争愈加激烈，创业公司(sī)还有机会吗？生数科技CEO唐家(jiā)渝(yú)接(jiē)受经济(jì)观察报在内的媒体采访时，回应了上述问题。

关于(yú)竞争和融资

经济观察报：Vidu发布4个(gè)月以来，国内陆续出现很多AI视频公司，头部大厂(chǎng)也都推(tuī)出了AI视频产品。作为曾经(jīng)的黑马，Vidu现在还(hái)有优势吗？

唐家渝：目前在(zài)AI视频语(yǔ)义理(lǐ)解方面(miàn)，我们能做到业界最好。另外Vidu在视频动(dòng)作幅度较大(dà)的情况下，能保持较(jiào)好的连(lián)贯性，用户公认这一点我们做得(dé)好。我们最近发布了AI视频主(zhǔ)体参照一致性(xìng)生成能力，这是全球首发(fā)的能力(lì)，可以解决AI生成视频的剧情连贯性问题。从这些技术角度，我(wǒ)们是有优势的(de)。

Vidu在全(quán)球最早提出了Diffu－sion（扩散模型）与Transformer（一种基于自注意力机制的深度学习模型）融合(hé)的底层架构U-ViT，并坚持自主的底层算法研发，没有采用开源结构(gòu)，这也是我们(men)的底(dǐ)气(qì)。

经济观察报：国内AI视频(pín)公司已经有10多(duō)家，大(dà)家的技术路线和商业(yè)化路径(jìng)会不会出现同(tóng)质(zhì)化趋势(shì)？

唐(táng)家渝：在技术路线上，AI视频行业目前处于底层架构收敛(liǎn)的(de)状态，可以理(lǐ)解为同质化(huà)，但并不意味着大家进展都一样。例如现在的大语言模型都会使用 Transformer架(jià)构，但OpenAI（美国头部AI公司）是明显(xiǎn)领先的。

在底层架构统一的基础上，各个公(gōng)司会有一些差异(yì)性。例如，如(rú)何有效压缩视频，如何(hé)在保证质量的情(qíng)况下快速(sù)生(shēng)成(chéng)视频，会涉(shè)及非常多算(suàn)法技巧、算(suàn)法(fǎ)难点，这是(shì)导(dǎo)致差异性的(de)主要原因。

目前各个公司的商业(yè)方向也(yě)是比较类似(shì)的(de)，即便是Sora、Runway等国外(wài)AI视频应用，也都在积极地拥抱好莱坞，或者与广告公司合作，这(zhè)是AI视频技(jì)术比较好(hǎo)落地的领(lǐng)域。总体来(lái)说，AI视频还处于行业(yè)发展前期，还有很长的(de)路要走。

经济(jì)观察报：今年6月，生数科技公布了数亿(yì)元(yuán)融资，接下来(lái)会有什么样的融资规划？今年大(dà)模型公司融资都面临一个困境，很难依靠(kào)技术和(hé)团队吸(xī)引投(tóu)资，投资方会(huì)要求商业化能力。你们是否也面临同样的问题？

唐(táng)家渝：我们正在做新一轮的融资。融资过程中(zhōng)，技术仍是很关键(jiàn)的东西(xī)，目前的AI视频生成只是初步符合了物理规律，还有很高的技术天花板需要突破，比如更强的模型能力以及更多模态的协同生成。

我们(men)经过一年半的成长，在商(shāng)业化方面已经阶段性交出(chū)了(le)比较好的(de)答卷。其实大家耳熟能详的一(yī)些大客户，已经接入了Vidu的底层视频生产能力(lì)了，只是我们目前还不能公布(bù)。

经济观察报：你们会(huì)如何选择(zé)投资者？有什么(me)考量(liàng)？

唐(táng)家渝：我们会更愿意选择长期陪伴的投资者，无论是(shì)从资源(yuán)、战(zhàn)略(lüè)协同上，还(hái)是上下游产业上，我觉得都(dōu)可以接受(shòu)，最主要的还是希望大家能有长期(qī)一起往前走的机会。

关于商业化

经济观(guān)察报：现(xiàn)在(zài)Vidu是否已经商业化？有哪些已经落地的商业场景？

唐家渝：商业模式主要有(yǒu)两种AI视频“卷”成红海，创业公司还有机会吗。一种是(shì)SaaS（软件即服务）订阅模式，用户打开Vidu.studio可以直接(jiē)体验到产品功能。目前(qián)我们每月有80个免(miǎn)费积分，如(rú)果用户有更多的需求(qiú)或想使用更高级的(de)能力，就需要支付订阅(yuè)费用。另一种(zhǒng)是API（应用程序编(biān)程接口）形式，将模型能力输出形式提供给大(dà)家，即(jí)MaaS（模(mó)型(xíng)即服(fú)务）。现在有很多客户需要(yào)具备视频生成(chéng)的能力，作为他们已(yǐ)有工作(zuò)流程的(de)一个环节，所(suǒ)以他们希(xī)望(wàng)直接调用模型的能力。

我们(men)的客户主要来自与视频(pín)内容相关的领域，比如广告、游戏、短剧和影视等。另一部分(fēn)客户是C端(duān)（个人用户端）应用，他们需要AI视频能力支撑他们的新(xīn)玩法。

经济(jì)观察(chá)报：在C端市场(chǎng)和B端（企业(yè)客户(hù)端）行业，哪个领域的AI视频增长潜力更大？

唐家渝：B端的需求(qiú)比较稳定、确定，能带(dài)来比较直接的收(shōu)入。在(zài)接触B端行业的过程中，我们发(fā)现，他们提出(chū)的都(dōu)是实实在在的需(xū)求，并不是还没想清楚就简单试一下，所以B端是我们长期(qī)重点关注的方向(xiàng)。

上线一个月以来(lái)，我们(men)的C端用(yòng)户增(zēng)长(zhǎng)曲线非常高。所以，我们也在不断探索C端商业(yè)化的过程中。

经济观察报：现在AI视频主要是艺术(shù)家、影视专业人员在用，普(pǔ)通人用一下就不用了。这个工(gōng)具什么时候能普及到大众？会(huì)不会一直只是小众(zhòng)人群的玩具？

唐家渝：AI视(shì)频不会一直都是小众产品。就像拍(pāi)照一样，一开始只是摄影爱好者或(huò)摄影师群体使用，现在拍视频(pín)、拍(pāi)照已经成为每个人的习惯。

现在的AI视频已经发展到了一个节点，Vidu最新(xīn)发布(bù)的功能是，只需(xū)输入(rù)一张图像，就可以保持该主体的一(yī)致(zhì)性，生成各种场景的视频。我们正在(zài)努力降低视频创作的门槛(kǎn)，让Vidu成为一个大众愿意使用的产(chǎn)品，今年年底(dǐ)应该就能普及(jí)到大众。

关于局限和突围

经济观察报：很多人觉得用AI生(shēng)成视频很(hěn)难，为什么会这样？视频生成技术(shù)还存在怎样的局限性或瓶颈？

唐家渝：目前的视频生成模型最大的局(jú)限性在于可控性不足(zú)。比如生成一段画面，画面里的人物或(huò)者对象容易崩坏，生成的结(jié)果也(yě)有很大的随(suí)机性，需(xū)要不断地尝试，这背后的本质是目(mù)前(qián)视频生成技(jì)术的稳(wěn)定性还不够。

从实际落地的(de)层面上看，上面我们提到的广告、短剧等场景，对画面连续性、一致性的要求(qiú)是很高的。即便(biàn)是C端用户单纯去玩，也会希望能(néng)一次性就生成一(yī)个他们想要的画面，这背后都是围绕可控性的需求。

经(jīng)济(jì)观(guān)察报：这(zhè)种不可控的瓶颈能否(fǒu)实现突破？如果(guǒ)技(jì)术(shù)继续进(jìn)步，会在哪些方面(miàn)有所提高？

唐家渝：我们刚刚发布的主体参照功能AI视频“卷”成红海，创业公司还有机会吗，已(yǐ)经(jīng)在一致性生成方面带来了很大提升。

当然，技术还有(yǒu)更(gèng)进一步提升的空间。比如一个精雕细琢(zuó)的柜子，上(shàng)面有繁复(fù)花纹和镂空部分(fēn)，对于这(zhè)样复杂的结构，目前AI视频生成成功的概率依旧不(bù)高。场(chǎng)景生成包含很多组(zǔ)成因素，例如AI视频生成的(de)一款运动鞋，我希(xī)望它能在更复杂(zá)、更动态化的场景中有更好的表现。这些都需要(yào)不断提升模型能力(lì)。

未经允许不得转载：橘子百科-橘子都知道 AI视频“卷”成红海，创业公司还有机会吗