AI视频“卷”成红海，创业公司还有机会吗

来(lái)源：@经济观(guān)察报微博

经济观察网记者任晓宁(níng) 9月11日，AI视频创业公司生数科技创始团队在北京(jīng)亮相(xiāng)，这是今年4月份(fèn)在中关村论坛一炮而红后，生数科技团队(duì)成员(yuán)的首次露面。

生(shēng)数科技的产品名(míng)为Vidu，是国内首个长时长、高(gāo)一(yī)致性、高动态性视(shì)频大模型，当时备受外界(jiè)关注(zhù)。不过时至9月，AI视频行业已(yǐ)经有了很大变化，Vidu不再一枝独秀，快手、字节跳动(dòng)、阿里巴巴、智谱AI、MiniMax、商汤等公司都已经推出AI视频产品。据经(jīng)济观察报不完全统计，仅在(zài)国内，过去4个月时间便有超过10家公司推出了(le)自(zì)研(yán)AI视频产品。

东吴证券今年8月发布(bù)的国(guó)产AI视频大模(mó)型深度报告测(cè)算，AI视频的潜在行业空(kōng)间为3178亿元。东吴证券还估算，在全AI模式下，电影、长剧、动画(huà)片和短(duǎn)剧的制作(zuò)成本，相较传统模式将下降超过95%。

AI视频的未来听起来很美好，但这个领域，目前并没有出现一(yī)个出圈的爆款应用。无论是AI视频(pín)产品还是(shì)由AI生成的视频作品，都像是少数影视专(zhuān)业人士的玩(wán)具，局(jú)限在小圈(quān)子(zi)范围(wéi)内，始终未能像ChatGPT（美国头部AI应用）一样(yàng)在大众(zhòng)层面获得认可。

AI视频赛道能成为大众市场吗(ma)？它的商业机会在哪(nǎ)里(lǐ)？大厂入(rù)局之后，它的市场(chǎng)竞争愈加激烈，创业公司还有机会吗？生数科(kē)技CEO唐家渝接受经济观察报在(zài)内的媒(méi)体采访时，回应(yīng)了上述问题。

关于竞争和融资

经济(jì)观察报：Vidu发(fā)布4个月以(yǐ)来，国内陆续(xù)出现很多AI视频(pín)公司，头部大厂也都推出了AI视频产品。作为曾(céng)经的(de)黑马，Vidu现(xiàn)在还有优势吗？

唐家(jiā)渝：目前在AI视频语义理解方(fāng)面，我们(men)能做到(dào)业界最好。另外Vidu在视频动作幅度较大的情况下，能保持较(jiào)好的连贯性，用户公认这一点我们做得好。我们最(zuì)近发布(bù)了(le)AI视频主体参照一致性生成能力，这是全球首发(fā)的能力，可以解决(jué)AI生成(chéng)视频(pín)的剧情连贯性问(wèn)题。从这些技术角度，我们是有优势(shì)的(de)。

Vidu在全球最早提出了Diffu－sion（扩(kuò)散(sàn)模型）与(yǔ)Transformer（一种基于自注意力机制的深(shēn)度学习模型）融合的底层架(jià)构U-ViT，并坚持自主的底层算法研发，没有采用(yòng)开源结构(gòu)，这也是我们的(de)底气。

经济观察(chá)报：国内AI视频(pín)公(gōng)司已经有10多(duō)家，大家的技术路(lù)线和商业化路(lù)径会(huì)不(bù)会出现同质化趋势？

唐家渝：在技术路(lù)线上，AI视频行业目前(qián)处于(yú)底层架构(gòu)收敛的状态，可以理解为同质化，但并不意味着(zhe)大家进展都一样。例(lì)如现在的大语言模型都会(huì)使用(yòng) Transformer架构，但OpenAI（美国头(tóu)部AI公司）是明显领(lǐng)先的。

在(zài)底层架构统一的基础上，各(gè)个(gè)公司会有一些(xiē)差异性。例(lì)如，如(rú)何有效压缩视频(pín)，如何在保证质量的情况下快速(sù)生成视(shì)频，会涉及非常(cháng)多算法技巧、算法难点，这是导(dǎo)致差异性的主(zhǔ)要原因。

目(mù)前各个公(gōng)司(sī)的商业(yè)方向也是比较类似的，即便是Sora、Runway等国外AI视频应用，也(yě)都在积极地拥抱好莱坞(wù)，或者与广告公司合作，这是AI视频(pín)技术比(bǐ)较好落地的领(lǐng)域(yù)。总(zǒng)体(tǐ)来(lái)说(shuō)，AI视频还(hái)处于行业(yè)发展前期(qī)，还有很长的路要走。

经济观察报：今年(nián)6月，生(shēng)数科技公布了数亿元融资，接下来(lái)会有什么样的融资规划？今年大(dà)模型(xíng)公司融资都面临一个困境，很难依靠(kào)技术和团队吸引投资，投资方会要求商业化能力。你(nǐ)们(men)是否也面临(lín)同样的问题？

唐家渝：我们正在做新(xīn)一轮的融资。融资过程中，技术仍(réng)是很关键的东西，目前的AI视频生成只(zhǐ)是初步符合了物理规(guī)律，还有很高的(de)技术天花板需要突破，比如更强的模型能力以及更(gèng)多模态的协同(tóng)生(shēng)成。

我们经过一年半(bàn)的成(chéng)长，在(zài)商业化方面已经阶段性交出了比较好的答卷。其(qí)实大家耳熟能详(xiáng)的一些大客户(hù)，已经接入了(le)Vidu的底层视频生产能力了，只是我们目前还不能公布。

经济观察报：你们会(huì)如何选择投资者？有什么考量？

唐(táng)家渝：我们会(huì)更愿意(yì)选择长(zhǎng)期陪伴的投资者，无论是从资源、战(zhàn)略协同上，还是上下游产业上，我觉得都可(kě)以接受，最主要的(de)还是希望大家能有长期一起往(wǎng)前走的机会。

关于商业(yè)化

经济观察报：现(xiàn)在Vidu是否已经商业化？有(yǒu)哪些已经落(luò)地的商业场景？

唐家渝：商(shāng)业模式主要有两种。一(yī)种是SaaS（软件即(jí)服务）订阅模式，用户打开Vidu.studio可(kě)以直接体验到(dào)产(chǎn)品功能。目前(qián)我们每月有80个免费积分，如果用户有更多的需求或想使用更高级的能力，就需(xū)要支(zhī)付订阅费用。另一种是API（应用程序编(biān)程接(jiē)口）形(xíng)式，将模型能(néng)力输出形式提供给大家，即MaaS（模型即服务）。现在有很多客户(hù)需(xū)要(yào)具备视频生成的能力，作为他们已有(yǒu)工作(zuò)流程(chéng)的一个环节，所以他们希望直接调用模型的能力。

我们的客户主要来自与视(shì)频内容相关(guān)的领域，比如广告、游戏、短剧和影视等。另一部分客户是C端（个人用户端）应用，他们需(xū)要AI视频(pín)能力(lì)支撑他们的新玩法。

经济(jì)观察报：在C端市场和B端（企业客户端）行业(yè)，哪个领域的(de)AI视(shì)频增长潜力更大？

唐家渝：B端的需求比较稳定、确定(dìng)，能带来比(bǐ)较(jiào)直接(jiē)的收(shōu)入。在接触(chù)B端行业的过程中，我们发(fā)现，他们提出的都是实实在在的需求，并不是(shì)还没想清楚就简单试一(yī)下，所以B端是我们(men)长期重点关(guān)注的方向。

上(shàng)线一个月以来，我们的(de)C端用户增(zēng)长曲线非常高(gāo)。所以，我们(men)也(yě)在不断探索C端(duān)商业化的过程中。

经济观察报：现在AI视频主要(yào)是艺术家、影视专(zhuān)业人员在用(yòng)，普(pǔ)通人用一下就不(bù)用了。这个工(gōng)具什么时候(hòu)能(néng)普及到大众(zhòng)？会不(bù)会一直只是小众人群的玩具？

唐家渝：AI视频不会(huì)一直都是小众产品。就(jiù)像拍照(zhào)一样，一(yī)开始只是摄影(yǐng)爱(ài)好者或摄影(yǐng)师群体使用(yòng)，现在拍视频、拍照已(yǐ)经成为每个人的(de)习惯(guàn)。

现在的AI视频已经(jīng)发展到(dào)了一个节点，ViAI视频“卷”成红海，创业公司还有机会吗du最新发(fā)布的功能是，只需输入一(yī)张图像，就(jiù)可以保持该主体的一致性，生(shēng)成各种场景的(de)视频。我们(men)正在努力降低视频创作的门槛，让Vidu成为一个大众愿意使用的(de)产品，今年年底应该就能普及到大众。

关于(yú)局限和(hé)突围

经济观察报：很多人觉得用AI生成视频很难，为什么会这样？视频生成技(jì)术还存在怎样的局限性或瓶(píng)颈？

唐家渝：目前的视频生成模型最大的局限性在于(yú)可控性不足。比如生成一段画面(miàn)，画面里(lǐ)的人物或者对象容易(yì)崩(bēng)坏，生成的(de)结果也有很大的随机性(xìng)，需(xū)要不断地(dì)尝(cháng)试，这背后的(de)本质是目前视(shì)频生成技术的稳定(dìng)性还不够。

从实际落地的层面上看，上面我们提到的广告、短剧等场景，对(duì)画面连续(xù)性、一致性的要求是很高的。即便是C端(duān)用(yòng)户单(dān)纯去玩，也会希望能一次性就生(shēng)成(chéng)一(yī)个他(tā)们想要的画面，这背后都是围绕可控性的需求。

经济观(guān)察报：这种不可控的瓶颈能否实现突破(pò)？如果(guǒ)技术继续进步，会在(zài)哪些方面有所提高？

唐家渝：我们刚(gāng)刚(gāng)发布(bù)的主体参(cān)照功能，已经在一致性生成方面带来了很大提升。

当(dāng)然，技术还有更进一步提(tí)升的空(kōng)间。比如一个精(jīng)雕(diāo)细琢的柜子(zi)，上面有繁复花纹和(hé)镂空部分，对(duì)于这样复杂的结构，目前AI视频生成成功的概率依旧不高。场景生成包含很多组成因素，例(lì)如AI视频生(shēng)成的一款运(yùn)动(dòng)鞋，我希望它能在更复杂(zá)、更动态化的场景中有更好(hǎo)的表现。这些都需要不(bù)断(duàn)提升模型能力。

未经允许不得转载：橘子百科-橘子都知道 AI视频“卷”成红海，创业公司还有机会吗