橘子百科-橘子都知道橘子百科-橘子都知道

AI视频“卷”成红海,创业公司还有机会吗

AI视频“卷”成红海,创业公司还有机会吗

来源:@经济(jì)观察报(bào)微博

经(jīng)济观(guān)察网 记者 任晓宁 9月11日,AI视频创业公司生数(shù)科(kē)技创始(shǐ)团队在北京亮相,这是今年4月份在中关(guān)村论坛一炮而红后,生数科技团队(duì)成员的首次(cì)露面。

生数科技的产品名(míng)为Vidu,是国内首(shǒu)个长时长、高一致(zhì)性(xìng)、高动态性视频大模型,当时 备受外界关(guān)注。不过时至9月,AI视频行业(yè)已经有(yǒu)了(le)很大(dà)变化 ,Vidu不再一枝独秀,快手、字节跳动、阿(ā)里巴巴、智谱AI、MiniMax、商(shāng)汤等公(gōng)司都(dōu)已经推出AI视频产品。据经济观 察报不完全统计,仅在国内,过去4个月时间便有(yǒu)超(chāo)过(guò)10家(jiā)公司推出了 自研AI视频产品。

东吴证(zhèng)券今年8月发布的(de)国产(chǎn)AI视频大模型深(shēn)度报告(gào)测算,AI视频的潜在行业空间为3178亿元。东吴证券还估(gū)算,在全AI模式下,电影、长(zhǎng)剧、动画片和短(duǎn)剧的制(zhì)作成本,相较(jiào)传统模式将下降超过95%。

AI视频的(de)未来听起来很美好,但这个领域,目前(qián)并没有(yǒu)出现一个出圈的(de)爆款应用(yòng)。无论是AI视(shì)频产品还是(shì)由AI生成的(de)视频作品,都像是少数影视专业人士的玩(wán)具,局限在小圈子范围内,始(shǐ)终未能像ChatGPT(美国头部AI应(yīng)用)一样在(zài)大(dà)众层面获得认可。

AI视频赛道(dào)能成为大众 市场吗?它的商业机会(huì)在哪里?大厂入 局之后,它(tā)的市场竞争(zhēng)愈加激烈,创业公司还有机会吗?生(shēng)数科技CEO唐家渝接受经济观(guān)察报在内的媒体(tǐ)采访时,回应了上述问题。

关于竞争和融资

经济观察报:Vidu发布4个月(yuè)以来,国内陆续出(chū)现很多AI视(shì)频公司,头部大厂也都推出(chū)了AI视频产品。作为曾经的黑马,Vidu现(xiàn)在(zài)还有优势吗?

唐家渝:目前在AI视频语义理解方面,我们能做到业界最好。另(lìng)外Vidu在视频动作幅度较大的情(qíng)况(kuàng)下,能保持较好的连贯性,用户公认(rèn)这一点我们做得好。我们最近发布了(le)AI视频主体参照(zhào)一致性(xìng)生成能力(lì),这是全球首发的能力,可以解决AI生成视频的剧情连贯性问(wèn)题。从这些技术角度,我们(men)是有优势的(de)。

Vidu在全球(qiú)最早提出(chū)了Diffu-sion(扩散模型)与Transformer(一种基于自注意力机制(zhì)的深度学习模型)融合的(de)底层架构U-ViT,并坚持自主的底(dǐ)层(céng)算法研发,没有(yǒu)采用(yòng)开源结构(gòu),这 也是我们的底气。

经济观察报:国内AI视(shì)频(pín)公司已经有10多家,大家的技术路线和商业(yè)化路径会不会出现同质化趋势?

唐家渝:在技术路线上,AI视频(pín)行业目前处(chù)于底层架构收 敛的状态,可以理解为同质(zhì)化,但并不意味着大家进展都一样。例如现在的大语言模型都会使用 Transformer架构,但OpenAI(美国头部AI公司)是明显领先的。

在底层架(jià)构统一的基(jī)础上(shàng),各个公司(sī)会有一(yī)些(xiē)差异性。例(lì)如,如(rú)何有(yǒu)效压(yā)缩视频,如何在保证(zhèng)质(zhì)量的(de)情况下快速(sù)生成视(shì)频,会涉及非(fēi)常多算法技巧、算(suàn)法难点,这是导致 差异性的主(zhǔ)要原因。

目前各(gè)个公司(sī)的商(shāng)业(yè)方向也是(shì)比较类似的,即便是(shì)Sora、Runway等国外AI视频应用,也都在积极地拥抱好莱坞,或者(zhě)与广告(gào)公司(sī)合作(zuò),这是(shì)AI视频技术比较好落地的领域。总(zǒng)体来说(shuō),AI视频还处于行业发展前期,还(hái)有很长的路要走。

经济观察报:今年6月,生数科技公布了数亿元(yuán)融资,接下来(lái)会有什么样(yàng)的 融资规划?今年(nián)大模型公司融资都(dōu)面临 一个困境,很难依靠技 术(shù)和团队吸引投资,投资(zī)方会要求商业化(huà)能力。你们是否也面临同样的问题?

唐家渝:我们正在做新一轮的融资(zī)。融资过程中,技术仍是很关键的东西,目前的AI视(shì)频生成只是初步符合了物理(lǐ)规律,还有很高的技术天花板需要突破,比如更强的模型能力(lì)以及(jAI视频“卷”成红海,创业公司还有机会吗í)更多模态的协同生成。

我们经过一年半的成长,在商业化方面已经阶段性(xìng)交 出了比较好的答卷 。其(qí)实大家(jiā)耳熟能详的一些大(dà)客(kè)户,已经接入了Vidu的底层视频(pín)生产能力了,只是我们目前还 不能(néng)公布。

经济观察报(bào):你们会如何选择投资者?有什么考量?

唐家渝:我们会更愿意(yì)选择长期陪(péi)伴的(de)投资者,无论是从资源、战略协同上,还是上(shàng)下游产业上,我觉得(dé)都可以接受,最主(zhǔ)要的还(hái)是希望(wàng)大家能(néng)有长期一(yī)起往前走的机(jī)会。

关于商业化

经济观察(chá)报:现在Vidu是否已经商业化?有哪(nǎ)些(xiē)已经落地的商业场景?

唐家渝:商业(yè)模式主(zhǔ)要有两种。一种是SaaS(软件即(jí)服(fú)务)订阅模式,用户打开Vidu.studio可以直接体验到产品功能。目前我(wǒ)们(men)每月有80个免费积分,如果用户有更多的需求或(huò)想(xiǎng)使用更高级的能力,就需要支付订阅(yuè)费用。另一(yī)种是API(应用程(chéng)序编程接口)形(xíng)式,将模型能 力输出形式提供给大家,即MaaS(模型即服务)。现在(zài)有很多(duō)客户需要具备视频生成的能力,作为他们已(yǐ)有工(gōng)作流程的一个(gè)环节,所(suǒ)以他们希望直接调用模型的能(néng)力。

我们(men)的客户主要来自与视频内容相关的(de)领域,比如广告、游戏(xì)、短剧和影(yǐng)视等。另一部分客户(hù)是C端(个人用户端)应用,他们 需要AI视频能力支撑他们的新玩法(fǎ)。

经济观察报:在(zài)C端市场和(hé)B端(企业客户端)行业,哪个(gè)领(lǐng)域的AI视频增长潜(qián)力更大?

唐(táng)家渝:B端的需求比较稳定、确定,能带来比较(jiào)直接的收入。在接触B端行业的过程中,我们发现,他(tā)们提(tí)出的都是实实在在的需求,并不是(shì)还没想清楚就简单试一下,所以B端是我们长期重点关注的方向。

上线一个月(yuè)以来,我们的C端用户(hù)增(zēng)长曲线(xiàn)非常高。所(suǒ)以,我们也(yě)在不断探索C端商业化的过程中。

经济观察报(bào):现在AI视频主(zhǔ)要是艺术家、影视(shì)专业(yè)人员(yuán)在用,普(pǔ)通(tōng)人用一(yī)下就不(bù)用了。这个(gè)工具什(shén)么时候(hòu)能普及到(dào)大众(zhòng)?会不会一直只是小众人 群的(de)玩具?

唐家(jiā)渝:AI视频不会一直都是小众(zhòng)产品。就像拍照一样,一开始只是摄影爱好者或摄影师群体 使用,现在拍视(shì)频、拍照已经成为 每个人的习惯。

现在的AI视频已经发展(zhǎn)到了一个节点,Vidu最新发布的功能是,只需输入一张图像,就可以保持该(gāi)主体的一致性,生成各种场景的视频 。我们正在努力(lì)降(jiàng)低(dī)视(shì)频创作的门槛,让Vidu成为一个大众愿意使用的产品,今年年底应该(gāi)就能普及到大众。

关于局限和突围

经济(jì)观(guān)察(chá)报:很多人觉(jué)得用AI生成(chéng)视(shì)频很难(nán),为什么(me)会这样?视频生成(chéng)技术(shù)还(hái)存在怎样的局限性或瓶颈?

唐家渝:目(mù)前的(de)视频生成模型最大的局限性在于可控性(xìng)不足。比如生成一段画面(miàn),画面里的人物或(huò)者对象容易崩坏,生(shēng)成的结果也有很大的随机性,需要不断地(dì)尝试(shì),这背后(hòu)的本 质是目前视(shì)频生成技术的稳定性还不够。

从实(shí)际落地的层面上看,上面(miàn)我们提(tí)到的广告、短剧(jù)等场景,对画面连(lián)续性、一致性的要求是很高的。即便是C端(duān)用户单纯去玩,也会(huì)希望能一次性AI视频“卷”成红海,创业公司还有机会吗就生(shēng)成一个他们想要的画面,这背后都是围绕可(kě)控性(xìng)的(de)需(xū)求。

经济观察报:这种不可控的瓶颈能否实现突破?如 果技术继续进步,会在哪些方面有所提高?

唐家渝:我们刚刚发布的(de)主体(tǐ)参照功能,已经在一(yī)致性生成方面带 来了很大提升。

当然,技(jì)术还有更进(jìn)一步提升的(de)空(kōng)间。比如一个精雕细琢的柜子,上面有繁复花纹和(hé)镂空部分,对于这 样(yàng)复杂的结构,目前AI视频生(shēng)成成功的概率依旧不高。场景生成包含很多组成因素,例如AI视频生成的一(yī)款运动鞋,我希望它能在(zài)更(gèng)复杂、更动 态化的场景中有更好的表现。这些都(dōu)需要不断提升(shēng)模型能力。

未经允许不得转载:橘子百科-橘子都知道 AI视频“卷”成红海,创业公司还有机会吗

评论

5+2=