AI视频“卷”成红海，创业公司还有机会吗

来源：@经(jīng)济观察报微博

经济观察(chá)网记者任晓宁 9月11日，AI视频创业公司生数科技创始团队在北京亮相，这(zhè)是(shì)今年4月份在中关(guān)村论坛一(yī)炮而红后，生数科技团(tuán)队成员的首次露(lù)面。

生数科技的产品名为Vidu，是国(guó)内首个长时长(zhǎng)、高一致性、高动态性视频大模型，当时备受外(wài)界关注。不过时至9月，AI视频行业已经有了很(hěn)大变化，Vidu不再一枝独秀，快手(shǒu)、字节跳动、阿里巴巴、智(zhì)谱AI、MiniMax、商汤等公司都已经推出AI视频(pín)产品。据经济观察(chá)报不完全统计，仅在国内，过去4个月时间便有超过10家公司推出了自研AI视频产品。

东吴证券今年8月发布的国(guó)产AI视频大(dà)模型深度报告(gào)测算，AI视频的潜在行业空间为3178亿元。东吴证券还估算，在全AI模式下，电影、长剧、动画(huà)片和短剧的制(zhì)作成(chéng)本，相较传统模式将下降(jiàng)超(chāo)过95%。

AI视频(pín)的未来听起来很(hěn)美好，但这个领域，目前并没有出现一(yī)个出圈的爆(bào)款应用。无论是AI视频产品还是由(yóu)AI生成的视(shì)频作品，都像(xiàng)是少数影视专业人士的玩(wán)具，局(jú)限在小圈子(zi)范围内，始终未能像ChatGPT（美国头部AI应用）一样在大众层面获得认可。

AI视(shì)频赛道能成为大众市场吗？它的商业机会在哪里？大(dà)厂入局之后，它的市场(chǎng)竞争愈加激烈，创业(yè)公司还有机会吗？生数科(kē)技CEO唐家渝接受经(jīng)济(jì)观察报在内的媒体采访(fǎng)时，回应了上述问题。

关于(yú)竞争(zhēng)和融(róng)资

经(jīng)济观察报：Vidu发布4个月以来(lái)，国(guó)内陆(lù)续出现很多AI视频公司，头(tóu)部大厂也都推出了AI视(shì)频产品。作(zuò)为曾(céng)经的黑马(mǎ)，Vidu现在还有优势吗？

唐家渝：目前在AI视频语义理解方(fāng)面，我们能做到业界最好。另外Vidu在视频动作幅度较(jiào)大的情况下(xià)，能保持较好的连贯性，用户公认这一点我们做得好。我们(men)最近发布了AI视频主体参(cān)照一致性生成(chéng)能力，这(zhè)是全球首发的能力，可(kě)以解决AI生成视频(pín)的剧情(qíng)连贯性问题。从这些技术角度(dù)，我们(men)是有优势的(de)。

Vidu在全球最早(zǎo)提出了Diffu－sion（扩散模型）与Transformer（一种基于自注意力机制的深度学习模型）融合的底(dǐ)层架构U-ViT，并坚(jiān)持(chí)自主的底层算(suàn)法研发，没有采用开源结构，这(zhè)也(yě)是我们的底气。

经济观察报：国内AI视频公司已经(jīng)有10多(duō)家，大家(jiā)的技术路线和商业化路径会不会出(chū)现(xiàn)同质化趋势？

唐家(jiā)渝(yú)：在技术路线上(shàng)，AI视频行业目前处于底层架构收(shōu)敛(liǎn)的状态(tài)，可以理解为(wèi)同质化，但并不意味着大家进展都一样。例如现在的大语言模型都会使用 Transformer架构，但OpenAI（美国(guó)头部AI公司）是明显领先的。

在底层架构统一的基础(chǔ)上，各个公司会(huì)有一些差异(yì)性。例如，如何有效(xiào)压(yā)缩视(shì)频，如何在保证质量的情况下快(kuài)速生成视频，会涉及非常多算法技巧、算法难点，这是导致差异性的主要原因。

目前各个公司的商业方向(xiàng)也是比较(jiào)类似的(de)，即便是Sora、Runway等(děng)国外AI视频应用，也都在积极(jí)地拥抱好莱坞，或(huò)者与广告公司合作，这是AI视频技术(shù)比较(jiào)好落地的(de)领域(yù)。总体来说，AI视频(pín)还处于行业发展前期，还有很长的路要走。

经济观察(chá)报：今年6月，生数(shù)科技公布了数(shù)亿元(yuán)融资，接下来会有什么(me)样(yàng)的融资规划(huà)？今年大模型公司(sī)融资都面(mAI视频“卷”成红海，创业公司还有机会吗iàn)临(lín)一个困境，很难依靠技术和团(tuán)队吸引投资，投资方会要求商业化能力。你们是否也面(miàn)临同(tóng)样(yàng)的问题？

唐家渝：我们正在做新一轮的融资。融资(zī)过程中，技术仍是很关键的东(dōng)西，目前(qián)的AI视频(pín)生(shēng)成只是初步符合(hé)了(le)物理规律，还有很高的技术(shù)天花(huā)板需要(yào)突破，比如更强的(de)模型能(néng)力以及更(gèng)多模态的协同(tóng)生(shēng)成。

我们经过一年半的成长，在商(shāng)业化方面已(yǐ)经阶段(duàn)性(xìng)交出了比(bǐ)较好的答(dá)卷(juǎn)。其实大家耳熟能详的一些(xiē)大客户，已经接(jiē)入了Vidu的底层(céng)视频生产能力了，只是我们目前还不能公布。

经济观察报：你们会如何选择投资(zī)者？有什么考量？

唐家渝(yú)：我们会更(gèng)愿意(yì)选择长期陪伴的投资者，无论是从资源、战略协同上，还是上下游产业上，我(wǒ)觉得都可以接受，最主(zhǔ)要的还是希望大家能有长期一(yī)起往(wǎng)前走的机会。

关于商业化

经济观察报：现在Vidu是否已经商业化？有哪些已经(jīng)落地的商业场景？

唐家渝：商业模式(shì)主(zhǔ)要有两种。一(yī)种是SaaS（软件即(jí)服务(wù)）订阅模(mó)式，用户打(dǎ)开Vidu.studio可以直接体验到产品功能。目前我们每月有80个免费积(jī)分(fēn)，如果用户(hù)有(yǒu)更多(duō)的需求或想使用更高级的(de)能力，就(jiù)需(xū)要支付订阅费用。另一种(zhǒng)是(shì)API（应用程(chéng)序编程接口）形式，将模(mó)型能力输出形式提供给大家(jiā)，即(jí)MaaS（模型即服务）。现在有很多客户需要具备视频生(shēng)成的能力，作(zuò)为他们已有工作流(liú)程的一(yī)个环节，所(suǒ)以他们希(xī)望直接调(diào)用模型的能力。

我们的客户主要来自与视频内容相关的(de)领域，比如广告、游戏、短剧和影视等。另一部分客户是C端(duān)（个人用(yòng)户端）应用，他们需要AI视频能力(lì)支撑(chēng)他们的新玩法。

经济观察报：在C端市场和B端（企业客(kè)户端）行业，哪个领域的AI视频(pín)增长潜力更(gèng)大？

唐家渝：B端的需求比(bǐ)较稳定、确定，能带来(lái)比较直接的收(shōu)入。在接触B端行业的过(guò)程中，我们发现，他们(men)提出的都是(shì)实实在在的需(xū)求，并不是(shì)还没想(xiǎng)清楚就简单(dān)试一下，所(suǒ)以(yǐ)B端是(shì)我们长期重点关注的方向。

上线一个月以来，我们的(de)C端(duān)用户(hù)增长曲(qū)线非常高(gāo)。所以(yǐ)，我们也在不断探索(suǒ)C端商业化的过程(chéng)中。

经济观察报：现在AI视频主要是(shì)艺术家、影(yǐng)视专业人(rén)员在用，普通人用一(yī)下(xià)就(jiù)不用了(le)。这个工具什么时候能普及到大众？会不(bù)会一(yī)直只是小众人群的玩具？

唐家渝：AI视频不会一直都是小众(zhòng)产品。就像拍照一样，一开始只是摄影爱好者或摄影师群体(tǐ)使用(yòng)，现在(zài)拍视频、拍(pāi)照已经成为每个人的习惯(guàn)。

现在的(de)AI视频已经发展到了(le)一个节(jié)点(diǎn)，Vidu最(zuì)新(xīn)发布的功能是，只需输入一张(zhāng)图像，就可以保持该主体的一(yī)致性，生成各种场景的视(shì)频。我们正在努力降低视频创(chuàng)作的门(mén)槛，让Vidu成为一个大(dà)众(zhòng)愿意(yì)使用的产品，今年年底应该就能普及(jí)到大众。

关于局限和突围

经济(jì)观察(chá)报：很多人觉得用(yòng)AI生成视频很难，为什么会这样？视(shì)频生成技术还存在怎样的局限性或瓶颈？

唐家渝：目前的视频生成(chéng)模型最大的局限(xiàn)性在于可控(kòng)性不足。比如生成一段画面(miàn)，画(huà)面里的人物(wù)或者对象容易崩坏，生(shēng)成(chéng)的结果也有很大的随机性(xìng)，需(xū)要不断地尝(cháng)试，这背后的本质是(shì)目前视频生成技(jì)术(shù)的稳定性还不够。

从实际落地的层面上看，上面我们提到的广告、短剧等场(chǎng)景，对画面连续性、一致(zhì)性的(de)要求(qiú)是很高的。即(jí)便是C端用户单纯去玩，也会希望能一(yī)次性就生成一(yī)个(gè)他(tā)们想要的画面，这背后都是围绕可控性的需求(qiú)。

经济(jì)观察报：这种不可控的瓶颈能否实现突破？如果技术继续进步，会在哪些方(fāng)面有所提高(gāo)？

唐家渝：我们(men)刚刚发(fā)布的(de)主体(tǐ)参照功能，已经在(zài)一致性生成(chéng)方(fāng)面带来了很大提升。

当然，技术还(hái)有更进一步提升的空间。比如一个精雕(diāo)细琢的柜子，上面有繁复花纹和镂空部分，对于这样复杂的结构，目前AI视频生成成功的(de)概率依(yī)旧不高。场景生(shēng)成包含很多组成因素，例如AI视频生成的一款运(yùn)动鞋，我希望它能在更(gèng)复杂、更动态化的场(chǎng)景中有更好的(de)表现。这(zhè)些都需要不断提(tí)升模型能力。

未经允许不得转载：橘子百科-橘子都知道 AI视频“卷”成红海，创业公司还有机会吗