AI视频“卷”成红海，创业公司还有机会吗

来源：@经济(jì)观察报(bào)微博

经(jīng)济观(guān)察网记者任晓宁 9月11日，AI视频创业公司生数(shù)科(kē)技创始(shǐ)团队在北京亮相，这是今年4月份在中关(guān)村论坛一炮而红后，生数科技团队(duì)成员的首次(cì)露面。

生数科技的产品名(míng)为Vidu，是国内首(shǒu)个长时长、高一致(zhì)性(xìng)、高动态性视频大模型，当时备受外界关(guān)注。不过时至9月，AI视频行业(yè)已经有(yǒu)了(le)很大(dà)变化，Vidu不再一枝独秀，快手、字节跳动、阿(ā)里巴巴、智谱AI、MiniMax、商(shāng)汤等公(gōng)司都(dōu)已经推出AI视频产品。据经济观察报不完全统计，仅在国内，过去4个月时间便有(yǒu)超(chāo)过(guò)10家(jiā)公司推出了自研AI视频产品。

东吴证(zhèng)券今年8月发布的(de)国产(chǎn)AI视频大模型深(shēn)度报告(gào)测算，AI视频的潜在行业空间为3178亿元。东吴证券还估(gū)算，在全AI模式下，电影、长(zhǎng)剧、动画片和短(duǎn)剧的制(zhì)作成本，相较(jiào)传统模式将下降超过95%。

AI视频的(de)未来听起来很美好，但这个领域，目前(qián)并没有(yǒu)出现一个出圈的(de)爆款应用(yòng)。无论是AI视(shì)频产品还是(shì)由AI生成的(de)视频作品，都像是少数影视专业人士的玩(wán)具，局限在小圈子范围内，始(shǐ)终未能像ChatGPT（美国头部AI应(yīng)用）一样在(zài)大(dà)众层面获得认可。

AI视频赛道(dào)能成为大众市场吗？它的商业机会(huì)在哪里？大厂入局之后，它(tā)的市场竞争(zhēng)愈加激烈，创业公司还有机会吗？生(shēng)数科技CEO唐家渝接受经济观(guān)察报在内的媒体(tǐ)采访时，回应了上述问题。

关于竞争和融资

经济观察报：Vidu发布4个月(yuè)以来，国内陆续出(chū)现很多AI视(shì)频公司，头部大厂也都推出(chū)了AI视频产品。作为曾经的黑马，Vidu现(xiàn)在(zài)还有优势吗？

唐家渝：目前在AI视频语义理解方面，我们能做到业界最好。另(lìng)外Vidu在视频动作幅度较大的情(qíng)况(kuàng)下，能保持较好的连贯性，用户公认(rèn)这一点我们做得好。我们最近发布了(le)AI视频主体参照(zhào)一致性(xìng)生成能力(lì)，这是全球首发的能力，可以解决AI生成视频的剧情连贯性问(wèn)题。从这些技术角度，我们(men)是有优势的(de)。

Vidu在全球(qiú)最早提出(chū)了Diffu－sion（扩散模型）与Transformer（一种基于自注意力机制(zhì)的深度学习模型）融合的(de)底层架构U-ViT，并坚持自主的底(dǐ)层(céng)算法研发，没有(yǒu)采用(yòng)开源结构(gòu)，这也是我们的底气。

经济观察报：国内AI视(shì)频(pín)公司已经有10多家，大家的技术路线和商业(yè)化路径会不会出现同质化趋势？

唐家渝：在技术路线上，AI视频(pín)行业目前处(chù)于底层架构收敛的状态，可以理解为同质(zhì)化，但并不意味着大家进展都一样。例如现在的大语言模型都会使用 Transformer架构，但OpenAI（美国头部AI公司）是明显领先的。

在底层架(jià)构统一的基(jī)础上(shàng)，各个公司(sī)会有一(yī)些(xiē)差异性。例(lì)如，如(rú)何有(yǒu)效压(yā)缩视频，如何在保证(zhèng)质(zhì)量的(de)情况下快速(sù)生成视(shì)频，会涉及非(fēi)常多算法技巧、算(suàn)法难点，这是导致差异性的主(zhǔ)要原因。

目前各(gè)个公司(sī)的商(shāng)业(yè)方向也是(shì)比较类似的，即便是(shì)Sora、Runway等国外AI视频应用，也都在积极地拥抱好莱坞，或者(zhě)与广告(gào)公司(sī)合作(zuò)，这是(shì)AI视频技术比较好落地的领域。总(zǒng)体来说(shuō)，AI视频还处于行业发展前期，还(hái)有很长的路要走。

经济观察报：今年6月，生数科技公布了数亿元(yuán)融资，接下来(lái)会有什么样(yàng)的融资规划？今年(nián)大模型公司融资都(dōu)面临一个困境，很难依靠技术(shù)和团队吸引投资，投资(zī)方会要求商业化(huà)能力。你们是否也面临同样的问题？

唐家渝：我们正在做新一轮的融资(zī)。融资过程中，技术仍是很关键的东西，目前的AI视(shì)频生成只是初步符合了物理(lǐ)规律，还有很高的技术天花板需要突破，比如更强的模型能力(lì)以及(jAI视频“卷”成红海，创业公司还有机会吗í)更多模态的协同生成。

我们经过一年半的成长，在商业化方面已经阶段性(xìng)交出了比较好的答卷。其(qí)实大家(jiā)耳熟能详的一些大(dà)客(kè)户，已经接入了Vidu的底层视频(pín)生产能力了，只是我们目前还不能(néng)公布。

经济观察报(bào)：你们会如何选择投资者？有什么考量？

唐家渝：我们会更愿意(yì)选择长期陪(péi)伴的(de)投资者，无论是从资源、战略协同上，还是上(shàng)下游产业上，我觉得(dé)都可以接受，最主(zhǔ)要的还(hái)是希望(wàng)大家能(néng)有长期一(yī)起往前走的机(jī)会。

关于商业化

经济观察(chá)报：现在Vidu是否已经商业化？有哪(nǎ)些(xiē)已经落地的商业场景？

唐家渝：商业(yè)模式主(zhǔ)要有两种。一种是SaaS（软件即(jí)服(fú)务）订阅模式，用户打开Vidu.studio可以直接体验到产品功能。目前我(wǒ)们(men)每月有80个免费积分，如果用户有更多的需求或(huò)想(xiǎng)使用更高级的能力，就需要支付订阅(yuè)费用。另一(yī)种是API（应用程(chéng)序编程接口）形(xíng)式，将模型能力输出形式提供给大家，即MaaS（模型即服务）。现在(zài)有很多(duō)客户需要具备视频生成的能力，作为他们已(yǐ)有工(gōng)作流程的一个(gè)环节，所(suǒ)以他们希望直接调用模型的能(néng)力。

我们(men)的客户主要来自与视频内容相关的(de)领域，比如广告、游戏(xì)、短剧和影(yǐng)视等。另一部分客户(hù)是C端（个人用户端）应用，他们需要AI视频能力支撑他们的新玩法(fǎ)。

经济观察报：在(zài)C端市场和(hé)B端（企业客户端）行业，哪个(gè)领(lǐng)域的AI视频增长潜(qián)力更大？

唐(táng)家渝：B端的需求比较稳定、确定，能带来比较(jiào)直接的收入。在接触B端行业的过程中，我们发现，他(tā)们提(tí)出的都是实实在在的需求，并不是(shì)还没想清楚就简单试一下，所以B端是我们长期重点关注的方向。

上线一个月(yuè)以来，我们的C端用户(hù)增(zēng)长曲线(xiàn)非常高。所(suǒ)以，我们也(yě)在不断探索C端商业化的过程中。

经济观察报(bào)：现在AI视频主(zhǔ)要是艺术家、影视(shì)专业(yè)人员(yuán)在用，普(pǔ)通(tōng)人用一(yī)下就不(bù)用了。这个(gè)工具什(shén)么时候(hòu)能普及到(dào)大众(zhòng)？会不会一直只是小众人群的(de)玩具？

唐家(jiā)渝：AI视频不会一直都是小众(zhòng)产品。就像拍照一样，一开始只是摄影爱好者或摄影师群体使用，现在拍视(shì)频、拍照已经成为每个人的习惯。

现在的AI视频已经发展(zhǎn)到了一个节点，Vidu最新发布的功能是，只需输入一张图像，就可以保持该(gāi)主体的一致性，生成各种场景的视频。我们正在努力(lì)降(jiàng)低(dī)视(shì)频创作的门槛，让Vidu成为一个大众愿意使用的产品，今年年底应该(gāi)就能普及到大众。

关于局限和突围

经济(jì)观(guān)察(chá)报：很多人觉(jué)得用AI生成(chéng)视(shì)频很难(nán)，为什么(me)会这样？视频生成(chéng)技术(shù)还(hái)存在怎样的局限性或瓶颈？

唐家渝：目(mù)前的(de)视频生成模型最大的局限性在于可控性(xìng)不足。比如生成一段画面(miàn)，画面里的人物或(huò)者对象容易崩坏，生(shēng)成的结果也有很大的随机性，需要不断地(dì)尝试(shì)，这背后(hòu)的本质是目前视(shì)频生成技术的稳定性还不够。

从实(shí)际落地的层面上看，上面(miàn)我们提(tí)到的广告、短剧(jù)等场景，对画面连(lián)续性、一致性的要求是很高的。即便是C端(duān)用户单纯去玩，也会(huì)希望能一次性AI视频“卷”成红海，创业公司还有机会吗就生(shēng)成一个他们想要的画面，这背后都是围绕可(kě)控性(xìng)的(de)需(xū)求。

经济观察报：这种不可控的瓶颈能否实现突破？如果技术继续进步，会在哪些方面有所提高？

唐家渝：我们刚刚发布的(de)主体(tǐ)参照功能，已经在一(yī)致性生成方面带来了很大提升。

当然，技(jì)术还有更进(jìn)一步提升的(de)空(kōng)间。比如一个精雕细琢的柜子，上面有繁复花纹和(hé)镂空部分，对于这样(yàng)复杂的结构，目前AI视频生(shēng)成成功的概率依旧不高。场景生成包含很多组成因素，例如AI视频生成的一(yī)款运动鞋，我希望它能在(zài)更(gèng)复杂、更动态化的场景中有更好的表现。这些都(dōu)需要不断提升(shēng)模型能力。

未经允许不得转载：橘子百科-橘子都知道 AI视频“卷”成红海，创业公司还有机会吗