橘子百科-橘子都知道橘子百科-橘子都知道

AI视频“卷”成 红海,创业公司还有机会吗

AI视频“卷”成 红海,创业公司还有机会吗

来源:@经(jīng)济观察报微博

经(jīng)济观察网 记者 任晓宁 9月11日(rì),AI视频创业公司(sī)生(shēng)数科(kē)技创始团队在北京亮相,这(zhè)是今年4月份在中关(guān)村论坛一炮而 红(hóng)后(hòu),生数科技团队成员的首次露面。

生数科技(jì)的产品名为Vidu,是国内首个长时长、高一(yī)致性、高(gāo)动态(tài)性(xìng)视频大模型,当时备受外界关注。不过时(shí)至9月(yuè),AI视频行业(yè)已经有了很大变化,Vidu不再一枝独秀,快(kuài)手、字节跳动(dòng)、阿里巴巴、智谱AI、MiniMax、商汤等公司都已经推出(chū)AI视频产品。据经济观察(chá)报不完(wán)全统计,仅在国内,过去4个月时间便有超(chāo)过10家公司推出(chū)了自研AI视(shì)频(pín)产品。

东吴证(zhèng)券今年(nián)8月发布的国产AI视频大模型深度报告测算,AI视频的潜在(zài)行业空(kōng)间为3178亿元。东吴证券还估算,在全AI模式下,电影 、长(zhǎng)剧、动(dòng)画片和短剧(jù)的制作成本,相(xiāng)较传统模 式将下降超(chāo)过95%。

AI视频的未来(lái)听起来很美好,但这个领域,目前并没有出现一个(gè)出圈的爆款应用。无论是AI视频(pín)产品还是由(yóu)AI生成(chéng)的视(shì)频作品,都像(xiàng)是(shì)少数影视专业(yè)人士的玩具,局限(xiàn)在小圈子范围内(nèi),始终未能(néng)像ChatGPT(美国头部AI应 用)一样(yàng)在大众(zhòng)层面获得认可。

AI视频(pín)赛道(dào)能(néng)成为大(dà)众市场吗?它(tā)的商业机会在(zài)哪里?大厂入局(jú)之后,它的市(shì)场竞争愈加(jiā)激烈(liè),创(chuàng)业公(gōng)司还有机会吗?生数(shù)科技CEO唐(táng)家渝接受经济观察报在内的媒体(tǐ)采访时,回应了上述问题。

关于竞争和融资

经济(jì)观察报(bào):Vidu发布4个月以来,国内陆续出现很(hěn)多AI视频公司,头部大厂也都推出了AI视频产品。作为曾(céng)经的黑(hēi)马,Vidu现在还(hái)有(yǒu)优(yōu)势吗(ma)?

唐(táng)家(jiā)渝:目前在AI视频语义理(lǐ)解方(fāng)面,我们(men)能做到业界最好。另外Vidu在视频动作幅(fú)度较大的情况下,能保持较好的连(lián)贯性,用户公认这一点我们做得好。我们最近(jìn)发布了AI视频主体参照一致性生成能力(lì),这是全球首(shǒu)发的(de)能力,可以解(jiě)决(jué)AI生成视频的剧(jù)情(qíng)连贯性问题(tí)。从这些(xiē)技术角度,我们是有优势的。

Vidu在全球最早提出(chū)了Diffu-sion(扩散模型)与Transformer(一种(zhǒng)基于自注意力机制的深度学习模型)融合的底层架构U-ViT,并坚(jiān)持(chí)自AI视频“卷”成红海,创业公司还有机会吗主的(de)底层算法研发,没有(yǒu)采用开(kāi)源结构,这(zhè)也是(shì)我 们(men)的底(dǐ)气。

经(jīng)济观(guān)察报:国内AI视频公(gōng)司已经有10多家,大家(jiā)的技(jì)术(shù)路线和商业化路径会不会出现 同质化趋势(shì)?

唐家渝:在(zài)技(jì)术路线上,AI视(shì)频行业目前处(chù)于底(dǐ)层架(jià)构收敛的(de)状(zhuàng)态(tài),可以理解为同质化,但并(bìng)不意味着大家进展都一样。例如现在的大语言 模型 都会使用(yòng) Transformer架(jià)构,但(dàn)OpenAI(美国头部AI公司)是明显(xiǎn)领先的。

在底层架构统一的基 础上,各个公司会有一些差异(yì)性。例如,如何有效压缩视频,如何(hé)在保(bǎo)证(zhèng)质量的情况下快速生成视(shì)频,会涉(shè)及非常多算法(fǎ)技巧、算(suàn)法难点,这是导致差异性(xìng)的主要原因。

目前各个公司的商业方向也是比(bǐ)较类似的,即便是Sora、Runway等国外AI视频应(yīng)用(yòng),也都在(zài)积极地拥抱好莱坞,或者与广告(gào)公司合作,这是AI视频技术比较好落(luò)地的领域。总体来 说,AI视频还(hái)处于行业发 展前期,还有很长的路要走。

经济观察报:今年(nián)6月(yuè),生数科技公布了数亿(yì)元融(róng)资,接下来会有什么样的融资规划?今年大(dà)模型公(gōng)司融资都面临一个困境,很难依靠技术(shù)和团队吸引投资(zī),投(tóu)资方会要求(qiú)商业化能力。你们是否也面临同样的问题(tí)?

唐家渝:我们正在做新一轮的融资。融(róng)资(zī)过程中,技术仍是很关键的东西,目前的AI视(shì)频生成只是初步符合了物(wù)理规律,还 有很高的技(jì)术天(tiān)花板需要突破,比如更强的模(mó)型能力以及更(gèng)多模态的协同生成。

我(wǒ)们经过一年(nián)半的成长,在商业化方面(miàn)已(yǐ)经阶段(duàn)性交(jiāo)出了比较好(hǎo)的答卷。其实大家(jiā)耳熟能详的(de)一些大客户,已经接入了Vidu的底层视频生产能(néng)力了,只(zhǐ)是 我们目前还不能公布。

经济(jì)观察报:你们会如(rú)何选(xuǎn)择投资者?有什么考量(liàng)?

唐家渝:我们会(huì)更愿意选择长(zhǎng)期陪伴(bàn)的投资者(zhě),无论是从资源(yuán)、战(zhàn)略协同上,还是上下游产业(yè)上,我觉得都可以接受,最(zuì)主要的还是希望大家能有长期一(yī)起往前走的机会。

关于商业化

经济观察报:现在Vidu是否已经(jīng)商业化?有哪些已经落地的商业场景?

唐家渝:商业(yè)模式主要有两种。一种是SaaS(软件即服(fú)务)订阅(yuè)模式,用户打开Vidu.studio可以(yǐ)直接体验到产品功能。目(mù)前我们每月有80个免(miǎn)费积(jī)分,如果用户有更多(duō)的需求或想使用更高级的(de)能力,就需(xū)要支付订阅费用。另一(yī)种是API(应用程序编程接口)形式,将模型能力(lì)输出(chū)形(xíng)式提供给大家,即MaaS(模型(xíng)即服务)。现在有很多客户需要具备视频生成的能力,作(zuò)为他们已有工作流程的一个环节,所以他们希望直(zhí)接调用模型的能力(lì)。

我们的客户主要来自 与视频内容(róng)相关的领域,比如广(guǎng)告、游戏、短剧(jù)和影(yǐng)视等。另一部分客户是C端(个人用户端)应用,他 们需要AI视频能力(lì)支撑他(tā)们的新玩法。

经济观察报:在C端市(shì)场和B端(企业客户端)行业,哪个领域的AI视频增长潜力更(gèng)大?

唐家(jiā)渝:B端的需求比较稳定(dìng)、确定,能带(dài)来(lái)比较(jiào)直接的收入。在接触B端行业的过程中,我们发现,他们提出的都是实实在在的需求,并不是还没(méi)想清楚就简单试一下,所以B端是我(wǒ)们(men)长期重点 关注 的方向。

上线一个月以(yǐ)来(lái),我们的C端(duān)用户增(zēng)长曲线(xiàn)非常高。所以,我(wǒ)们也在不(bù)断探索C端商业化的过程(chéng)中。

经济观察报:现在AI视(shì)频(pín)主(zhǔ)要是(shì)艺术家、影视专业人员在用,普通人用一下就(jiù)不用了(le)。这个工(gōng)具什 么时候能普及到大众?会不会一直只(zhǐ)是小众人群的(de)玩具?

唐家渝:AI视(shì)频不会一直都是小众(zhòng)产品。就像(xiàng)拍照一(yī)样,一开始只是摄影爱好者(zhě)或(huò)摄(shè)影师群体使用,现在拍视(shì)频、拍照已经(jīnAI视频“卷”成红海,创业公司还有机会吗g)成为每(měi)个人(rén)的(de)习惯。

现在的AI视频已经发展(zhǎn)到了一个节点,Vidu最(zuì)新发布的(de)功(gōng)能是,只需输入一张图像,就可以(yǐ)保持该主体的一致性,生成各种场(chǎng)景的视频 。我们正在努力降低视频创作的门槛,让Vidu成为一个大(dà)众愿意使用的产品,今年(nián)年底应该(gāi)就能普及到大众。

关(guān)于局限和突围

经济观察报(bào):很多人觉(jué)得(dé)用AI生成视频很难,为(wèi)什么(me)会这样?视频生成技术还存在怎(zěn)样的局限性或瓶颈?

唐家渝:目前的视频生成模型最大的局限性在于可控性不足。比如生成一段画(huà)面(miàn),画面里的人物或者对象容易崩坏,生成的(de)结果也有很大的随机性,需要(yào)不断地尝试,这背后的本质是目前视频生成技术的稳(wěn)定性还不够。

从实际落地的(de)层面(miàn)上看,上面我们提到的广告、短剧等场景,对画面连续性、一致性的要求(qiú)是很高的。即便是(shì)C端用户单纯去玩,也会希望能一次性(xìng)就生成一个他(tā)们想要的画面(miàn),这背后都是围绕可控性的需求。

经济观察报:这种不可控的瓶颈能否(fǒu)实(shí)现突破?如果技术继续进步,会在哪些方面有所提高?

唐家渝(yú):我们刚刚发布的主体参照功能,已经在一致性生成方面(miàn)带来了很大提升。

当然,技术还有更进一步提升的空(kōng)间。比如一个精雕细琢的(de)柜子,上面有(yǒu)繁(fán)复花纹和镂(lòu)空 部(bù)分,对于这样复杂的结构,目前AI视频生成成(chéng)功的概率依旧不高。场景(jǐng)生成包 含很多组成因素,例(lì)如AI视频(pín)生成的一款运动鞋,我(wǒ)希望它能在更复杂、更动态化的场景中有更好的表现。这些都需要不(bù)断(duàn)提升(shēng)模型 能力。

未经允许不得转载:橘子百科-橘子都知道 AI视频“卷”成红海,创业公司还有机会吗

评论

5+2=