AI视频“卷”成红海,创业公司还有机会吗
来源:@经济观察报微博
经济(jì)观察网 记者 任(rèn)晓宁 9月11日,AI视频创业(yè)公司生数(shù)科技创始团队(duì)在北京亮相,这是今(jīn)年4月份在中关(guān)村论坛一炮(pào)而红后,生数科技团队成(chéng)员的首次露面。
生数科技的产品名为Vidu,是国内首个长时长、高一致性、高动态性视频大模型,当时备受外界关注。不过时(shí)至9月,AI视(shì)频行业已(yǐ)经有了很大变化,Vidu不再一枝独秀,快(kuài)手、字节跳动(dòng)、阿里巴巴、智谱AI、MiniMax、商汤等公司都已经推出(chū)AI视频产品。据经济观察报不完全统计(jì),仅在国内,过去4个(gè)月时间便有超过(guò)10家公 司推(tuī)出了自研AI视频产(chǎn)品。
东吴证券今年(nián)8月发布的国产AI视频大模型(xíng)深度报告(gào)测算,AI视频的潜在行业空间为3178亿元。东吴证券还估算(suàn),在全AI模式下,电影、长剧、动画(huà)片和短剧(jù)的制作成本,相较(jiào)传统模式将下降(jiàng)超过95%。
AI视(shì)频的未来听起来很美好,但这个领域,目前并没有出现一(yī)个出圈的爆款应用。无论是AI视频产品还是(shì)由(yóu)AI生成的视频作品,都像是少数影(yǐng)视专业人士(shì)的玩具,局限在小圈子范围内,始终未能像ChatGPT(美国头部AI应用)一样在大众层面获(huò)得认可(kě)。
AI视频赛道能成为(wèi)大众(zhòng)市场(chǎng)吗?它的商(shāng)业机(jī)会在哪(nǎ)里?大厂入局之后,它的市场(chǎng)竞争愈加激烈,创业公司(sī)还有机会吗?生数科技CEO唐家(jiā)渝(yú)接(jiē)受经济(jì)观察报在内的媒体采访时,回应了上述 问题。
关于(yú)竞争和融资
经济观察报:Vidu发布4个(gè)月以来,国内陆续出现很多AI视频公司,头部大厂(chǎng)也都推(tuī)出了AI视频产品。作为曾经(jīng)的黑马,Vidu现在还(hái)有优势吗?
唐家渝:目前在(zài)AI视频语(yǔ)义理(lǐ)解方面(miàn),我们能做到业界最好。另外Vidu在视频动(dòng)作幅度较大(dà)的情况下,能保持较(jiào)好的连(lián)贯性,用户公认这一点我们做得(dé)好。我们最近发布了AI视频主(zhǔ)体参照一致性(xìng)生成能力,这是全球首发(fā)的能力(lì),可以解决AI生成视频的剧情连贯性问题。从这些技术 角度,我(wǒ)们是有优势的(de)。
Vidu在全(quán)球最早提出了Diffu-sion(扩散模型)与Transformer(一种基于自注意力机制的深度学习模型)融合(hé)的底层架构U-ViT,并坚持自主的底层算法研发,没有采用开源结构(gòu),这也是我们(men)的底(dǐ)气(qì)。
经济观察报:国内AI视频(pín)公司已经有10多(duō)家,大(dà)家的技术路线和商业(yè)化路径(jìng)会不会出现同(tóng)质(zhì)化趋势(shì)?
唐(táng)家渝:在技术路线上,AI视频行业目前处于底层架构收敛(liǎn)的(de)状态,可以理(lǐ)解为同质化(huà),但并不意味着大家进展都一样 。例如现在的大语言模型都会使用 Transformer架(jià)构,但OpenAI(美国头部AI公司)是明显(xiǎn)领先的。
在底层架构统一的基础上,各个公(gōng)司会有一些差异(yì)性。例如,如(rú)何有效压缩视频,如何(hé)在保证质量的情(qíng)况下快速(sù)生(shēng)成(chéng)视频,会涉(shè)及非常多算(suàn)法技巧、算(suàn)法(fǎ)难点,这是(shì)导(dǎo)致差异性的(de)主要原因。
目前各个公司的商业(yè)方向也(yě)是比较类似(shì)的(de),即便是Sora、Runway等国外(wài)AI视频应用,也都在积极地拥抱好莱坞,或者与广告公司合作,这(zhè)是AI视频技(jì)术比较好(hǎo)落地的领(lǐng)域。总体来(lái)说,AI视频还处于行业(yè)发展前期,还有很长的(de)路要走。
经济(jì)观察报:今年6月,生数科技公布了数亿(yì)元(yuán)融资,接下来(lái)会有什么样的融资规划?今年大(dà)模型公司融资都面临一个困境,很难依靠(kào)技术和(hé)团 队吸(xī)引投(tóu)资,投资方会(huì)要求商业化能力。你们是否也面临同样的问题?
唐(táng)家渝:我们正在做新一轮的融 资。融资过程中(zhōng),技术仍是很关键(jiàn)的东西(xī),目前的AI视频生成只是初步符合了物理规律,还有很高的技术天花板需要突破,比如更强的模型能力以及更多模态的协同生成。
我们(men)经过一年半的成长,在商(shāng)业化方面已经阶段性交出(chū)了(le)比较好的(de)答卷。其实大家耳熟能详的一(yī)些大客户,已经接入了Vidu的底层视频生产能力(lì)了,只是我们目前还不能公布(bù)。
经济观察报:你们会(huì)如何选择(zé)投资者?有什么(me)考量(liàng)?
唐(táng)家渝:我们会更愿意选择长期陪伴的投资者,无论是(shì)从资源(yuán)、战(zhàn)略(lüè)协同上,还(hái)是上 下游产业上,我觉得都(dōu)可以接受(shòu),最主要的还是希望大家能有长期(qī)一起往前走的机会。
关于商业化
经济观(guān)察报:现(xiàn)在(zài)Vidu是否已经商业化?有哪些已经落地的商业场景?
唐家渝:商业模式主要有(yǒu)两种AI视频“卷”成红海,创业公司还有机会吗。一种是(shì)SaaS(软件即服务)订 阅模式,用户打开Vidu.studio可以直接(jiē)体验到产品功能。目前(qián)我们每月有80个免(miǎn)费积分,如(rú)果用户有更多的需求(qiú)或想使用更高级的(de)能力,就需要支付订阅(yuè)费用。另一种(zhǒng)是API(应用程序编(biān)程接口)形式,将模型能力输出形式提供给大(dà)家,即(jí)MaaS(模(mó)型(xíng)即服(fú)务)。现在有很多客户需要(yào)具备视频生成(chéng)的能力,作为他们已(yǐ)有工作(zuò)流程的(de)一个环节,所(suǒ)以他们希(xī)望(wàng)直接调用模型的能力。
我们(men)的客户主要来自与视频(pín)内容相关的领域,比如广告、游戏、短剧和影视等。另一部分(fēn)客户是C端(duān)(个人用户端)应用,他们需要AI视频能力支撑他们的新(xīn)玩法。
经济(jì)观察(chá)报:在C端市场(chǎng)和B端(企业(yè)客户(hù)端)行业,哪个领域的AI视频增长潜力更大?
唐家渝:B端的需求(qiú)比较稳定、确定,能带(dài)来比较直接的收(shōu)入。在(zài)接触B端行业的过程中,我们发(fā)现,他们提出(chū)的都(dōu)是实实在在的需(xū)求,并不是还没想清楚就简单试一下,所以B端是我们长期(qī)重点关注的方向(xiàng)。
上线一个月以来(lái),我们(men)的C端用(yòng)户增(zēng)长(zhǎng)曲线非常高。所以,我 们也在不断探索C端商业(yè)化的过程中。
经济观察报:现在AI视频主要是艺术(shù)家、影视专业人员在用,普(pǔ)通人用一下就不用了。这个工(gōng)具什么时候能普及到大众?会(huì)不会一直只是小众(zhòng)人群的玩具?
唐家渝:AI视(shì)频不 会一直都是小众产品。就像拍(pāi)照一样,一开始只是摄影爱好者或(huò)摄影师群体使用,现在拍视频(pín)、拍(pāi)照已经成为每个人的习惯。
现在的AI视频已经发展到了一个节点,Vidu最新(xīn)发布(bù)的 功能是,只需(xū)输入(rù)一张图像,就可以保持该主体的一(yī)致(zhì)性,生成各种场景的视频。我们正在(zài)努力降低视频创作的门槛(kǎn),让Vidu成为一个大众愿意使用的产(chǎn)品,今年年底(dǐ)应 该就能普及(jí)到大众。
关于局限和突围
经济观察报:很多人觉得用AI生(shēng)成视频很(hěn)难,为什么会这样?视频生成技术(shù)还存在怎样的局限性或瓶颈?
唐家渝:目前的视频生成模型最大的局(jú)限性在于可控性不足(zú)。比如生成一段画面,画面里的人物或(huò)者对象容易崩坏,生成的结(jié)果也(yě)有很大的随(suí)机性,需(xū)要不断地尝试,这背后的本质是目(mù)前(qián)视频生成技(jì)术的稳(wěn)定性还不够。
从实际落地的(de)层面上看,上面我们提到的广告、短剧等场景,对画面连续性、一致性的要求(qiú)是很高的。即便(biàn)是C端用户单纯去玩,也会希望能(néng)一次性就生成一(yī)个他们想要的画面,这背后都是围绕可控性的需求。
经(jīng)济(jì)观(guān)察报:这(zhè)种不可控的瓶颈能否(fǒu)实现突破?如果(guǒ)技(jì)术(shù)继续进(jìn)步,会在哪些方面(miàn)有所提高?
唐家渝:我们刚刚发布的主体参照功能AI视频“卷”成红海,创业公司还有机会吗,已(yǐ)经(jīng)在一致性生成方面带来了很大提升。
当然,技术还有(yǒu)更(gèng)进一步提升的空间。比如一个精雕细琢(zuó)的柜子,上(shàng)面有繁复(fù)花纹和镂空部分(fēn),对于这(zhè)样复杂的结构,目前AI视频生成成功的概率依旧不(bù)高。场(chǎng)景生成包含很多组(zǔ)成因素,例如AI视频生成的(de)一款运动鞋,我希(xī)望它能在更复杂(zá)、更动态化的场景中有更好的表现。这些都需要(yào)不断提升模型能力(lì)。
未经允许不得转载:橘子百科-橘子都知道 AI视频“卷”成红海,创业公司还有机会吗
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了