橘子百科-橘子都知道橘子百科-橘子都知道

阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往 AGI的大模型发展之路”

阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往 AGI的大模型发展之路”

【TechWeb】9月20日(rì)消息(xī),在2024云栖大会上,极客公 园创始人、总裁 张(zhāng)鹏对话阶跃星辰(chén)创始人、首席执行官姜大昕,月(yuè)之暗面Kimi创始人 杨植麟,清华大学人工 智能研究院副院长、生数科(kē)技首席科(kē)学家朱军(jūn),三人对(duì)AGI发展(zhǎn)现状和未(wèi)来展望进行了激烈讨论和前瞻展望。

2024年 ,AI 发展变慢了吗?过去18个月(yuè),AGI的发展是加速还是减速?如何评价OpenAI 最新发布的 O1 模(mó)型?强(qiáng)化学习将改变什么?大模型时代的创业新范(fàn)式是什么?

姜大昕表示AI 技(jì)术发展(zhǎn)加速, AI 发展 正在经历(lì)关键的技术范式迭代: OpenAI 的(de)大模型 o1 探索出了通过强化学习让 AI 具备人(rén)类(lèi)慢 思(sī)考(kǎo)(可主动(dòng)反思、纠错的复杂(zá)思考(kǎo))能力的方式,接下来提(tí)升强化学习(xí)模型的泛化能(néng)力和加速推进多模态(tài)理解生成一(yī)体化是 AI 技术进一步突(tū)破的关(guān)键。阶跃星(xīng)辰积极探索新的技术范式,已经 在万亿参数(shù)模型上(shàng)实现了强化 学习训练的方法论。同时 ,持(chí)续打磨更高性能的底层大(dà)模型,提(tí)升C端产品体(tǐ)验。据(jù)他透露,近期阶跃星辰自研的 Step-2 万亿参数 MoE 语言大(dà)模型已接入智(zhì)能助(zhù)手“跃问”,展(zhǎn)现出(chū)更强大的(de)指令跟随、创(chuàng)作和(hé)推理(lǐ)能(néng)力。

谈到(dào)AI产品未来的可能形态(tài),杨植(zhí)麟 表示,以后(hòu)的AI可能要(yào)思考或者调用各种工具,它(tā)可能(néng)执行分钟级(jí)别、小时级别甚(shèn)至天级别的任务,所以产(chǎn)品形态上可能会(huì)更(gèng)接近一个人(rén),它更接近“助理”的概念,帮你(nǐ)完成异步的任务。这(zhè)里 面的产品形态设计(jì)可能也会发生很大的变化,想象空间蛮大。

谈到未来18个(gè)可能发生的(de)事情,朱军表示(shì),预想未来18个月可能比较令人兴奋的一个进(jìn)展,我希望看(kàn)到AGI的L3已经(jīng)基本上实现。至少在智能体,比(bǐ)如我们说的世(shì)界模型的创(chuàng)建生(shēng)成、虚实(shí)融合,至少在一些特(tè)定场(chǎng)景下的决策能力的巨大的提升。其实(shí)它会利用我们今天讲到的推理、感知等等。

以下为对(duì)话实录摘录(lù):

主持人:从ChatGPT的发展,引发(fā)了整个(gè)世界对于AGI这个(gè)事情的(de)理(lǐ)解,发展到(dào)现(xiàn)在也18个(gè)月了(le)。各位的感受是怎么样的,过去18个(gè)月(yuè),AGI的发展是加速还是减速?

姜大昕:我觉得过去(qù)18个月速度还是在加速的,速度还是(shì)非常快(kuài)的。因为当(dāng)我们回顾过去(qù)18个月发生的大(dà)大小小的AI事件以后,可以从两个(gè)维度去看(kàn),一个是(shì)数量的角度(dù),一个是(shì)质量的(de)角度。

  从数量的角(jiǎo)度(dù)来(lái)看,还是每(měi)个月都会有新的模型、新的产品、新的(de)应用涌现出来。比如单从(cóng)模型来看,OpenAI  2月份发了一 个(gè)sora,我(wǒ)记得当时还是过年的时候,把大家轰炸了一下。然后5月份出了(le)一个GPT-4o,上周(zhōu)又出了o1。OpenAI的老对手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列,等等。

所以(yǐ),回(huí)顾过去,我们的感觉还是GPT-4是一家独大,遥遥领先。到(dào)了今年就(jiù)变成了一个好像是群雄并起,你追我赶的局(jú)面,所以感(gǎn)觉各家是在提速了。

 从(cóng)质量的(de)角度来看,我觉得有 三件事情(qíng)可能给我的印象非常(cháng)的深(shēn)刻。

   第(dì)一件事情,GPT-4O的发布。因为我看它,认为它是在多模融合这(zhè)样的一个领域上了一个新的台阶。在GPT4O之前,是有GPT4V,它 是一个视觉的理解模型,有Dalle、Sora,这是视觉的生成(chéng)模型。还有(yǒu)Whisper这(zhè)是声音模(mó)型。所以原本这(zhè)些孤立的模型(xíng)到 了4O这里都融合在一起了。

   那为(wèi)什(shén)么融合这件(jiàn)事情(qíng)非常的重(zhòng)要 ?是因(yīn)为(wèi)我们的物理世界本身就是 一个多模(mó)的世界(jiè),所(suǒ)以多模融合一 定是有助于更好的去为我们的物理世界建(jiàn)模,去模(mó)拟世界(jiè)这样(yàng)一件(jiàn)事情(qíng)。

   第二件事情,特(tè)斯拉发布(bù)的FSD V12。大(dà)家知道它是一 个端到(dào)端的大 模型,它把感知信号变(biàn)成一个控制序(xù)列(liè)。智驾是一个(gè)非常(cháng)有代表性的,它是一个从数字世界走向物理(lǐ)世界一个真实的应用(yòng)场景 。所以,我觉得FSDV12它的成功,意义(yì)不仅在于智驾本身(shēn),这套(tào)方法论可以认为是为将来的智能设备如何和大(dà)模型相(xiāng)结合,更好的去探索物理世界指明了一个方向。

第三件事情,上周的O1,我对它的理解,它第一次证(zhèng)明了语言模型其实也(yě)可以(yǐ)有人脑的慢思(sī)考(kǎo),就(jiù)是系统2的能力。而我(wǒ)们觉得系统2的能力它(tā)是归纳世(shì)界所(suǒ)必备的(de)一(yī)个前提条件,是 一个基础的能(néng)力。所以,我(wǒ)们一直认为,AGI的演进路线可以分为模拟世(shì)界、探索世(shì)界、最(zuì)后归纳世界。而过去(qù)几个月的(de)时间我们 看到GPT4O、FSD V12和O1分(fēn)别在这三个阶段或者这三个方向上(shàng)都取得了非常大的(de)突破,而且更重要的是为将(jiāng)来的发展也指明了一(yī)个方 向。所以无论是从数量还是(shì)质量上来说,都是可圈可点。

杨植麟:我觉(jué)得整体也是属于加速发展的阶段,核心(xīn)可(kě)以从两个维度来(lái)看(kàn)(AI的发展),第一个维度是(shì)纵向的维度,也就(jiù)是说你的智商是(shì)一直在提升 的,这个主要现在的反应方式还是你去看文本模型能(néng)做到多好。第二个(gè)是横(héng)向的发展。除了文本模(mó)型之外,刚才姜总(zǒng)提到的,也会有各(gè)种不同的模态,这些模态会做一个横向的发展,更多的让(ràng)你这个模型(xíng)具备更(gèng)多的技能(néng),能够去完(wán)成更多的任务,然后同时(shí)跟 纵向的智 商的发展相结合。

   在这两个维度上,我觉得(dé)都看(kàn)到 了非常(cháng)大的进展,比如说在纵向(xiàng)的维度上,其(qí)实智商是一直在提升的,比如说(shuō)我们如果去看竞赛数学能力,去年是完全不及格,到(dào)今年已经能做(zuò)到90多分,像代码基本上也是一样,能够击(jī)败很多(duō)专业的编程选手(shǒu),包括(kuò)因此 也产生了很多新的应用机会,比如(rú)说像现 在比较(jiào)流行的类似(shì)curser这样的(de),通过自然语(yǔ)言直接(jiē)去写代码的这样的软(ruǎn)件也越来越普及(jí),这是技术发展的结果。包括我们去看很(hěn)多具体的技术(shù)指标(biāo),现(xiàn)在的语言(yán)模型能支持(chí)的上下文的长(zhǎng)度,我们如果去年这个时间点去看的(de)话,大部分的模型都只能支持4K-8K的,但是从今天去看你会发现4K-8K已(yǐ)经是非常低的数了,128K是一个标配,已经 有很多可以支(zhī)持1M甚至10M的长文本的长度。所以,它这个其实也是后面你(nǐ)的(de)智商不断提升的一(yī)个很重(zhòng)要的基础。

   包括最近的很多进展,它不光只是说Scaling,Scaling还是会持续。而且很多进(jìn)展也来 自(zì)于你的(de)后训练算(suàn)法的优化,来自于你数据的优化,这些(xiē)优(yōu)化它的周期是会更短的。所以,这个(gè)周期更(gèng)短导致你(nǐ)整体AI发展(zhǎn)节奏也会进一(yī)步加快,包括我们(men)最近在数学上看到的很多进展,其实也是得益于这些技(jì)术的发展。

 横向上(shàng)当然(rán)也产(chǎn)生(shēng)了很多新的突破,当(dāng)然Sora可(kě)能是影响力最大的,在这里面 完阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”成了这个(gè)视(shì)频生成。包括最近有特别多新(xīn)的产品和技术出来,现在 你已经可以通过一个论文直接(jiē)生成基本上你看不出来是真是假的双人的对话。类似这 样的不 同模态之间的转化、交互(hù)和生成,其实会变的越来(lái)越成熟。所以,我觉得整体是在(zài)加速的过程中。

朱军:AGI这(zhè)里面大家最关注(zhù)的还是大模型,刚才两位也讲了(le)去年包括今年大模型也发生了(le)很(hěn)多重要的变化。整(zhěng)个的进展我 是(shì)非常(cháng)同意刚(gāng)才讲到的(de),在加快。

   另外,我想补充一点,大家(jiā)在解新的问题,这个(gè)速度也在(zài)加快了(le),我们说它(tā)的Leaning  corve在变的更陡。原来如果你看语言模型,可能从2018年最(zuì)早去做的,到去(qù)年以及(jí)到今年,大家(jiā)走了五六年的路。但其实从(cóng)去(qù)年开始(shǐ),上半年大(dà)家还是关注语言(yán)模型,下半年在讨论多模态,从多模(mó)态理解再到(dào)多模(mó)态生成。我们再(zài)回(huí)过头看的话(huà),比如说图像或者视频,其实视频最明显(xiǎn),从今年的2月份,当时(shí)很多(duō)人被震惊到(dào)了(le),因为它很多没有公开,就说怎么去突破?有很多的讨论。但事实上我(wǒ)们现在看到这个行业里(lǐ)面,大概用了半年(nián)的时间(jiān),已经做到了可以去(qù)用,而且达到了一个很好(hǎo)的(de)一些效果,在时空(kōng)一致性上。所以大概(gài)走了半年的(de)路。

  所以这(zhè)里面加速的一个最核心的原因(yīn),现在大家(jiā)对这(zhè)种路线的认知和准备上,达到(dào)了(le)比(bǐ)较(jiào)好的程度。当然我们还有物理的条件,比如说像云 的(de)设(shè)施,计(jì)算 的资源的准备上,不像ChatGPT当时出来的时候,大家当时(shí)更多的是一种(zhǒng)不知所措,我(wǒ)觉得很 多人(rén)可能没准备好去接受这个,所(suǒ)以中间去(qù)花了(le)很长时间去学习、去掌(zhǎng)握这(zhè)个。当我们掌握了之后再发现这个进展的话,再去(qù)做新的问题,其实它的速度是越来越快的。

当然,这个可能不同的能(néng)力它再辐射到实际(jì)的用户的角度来说,有一些快 慢之分,当然也分行业。这(zhè)个可能在广泛的角(jiǎo)度来说,大家可能(néng)没(méi)感知到(dào)。但是从技术来说,其实这个进展我(wǒ)感(gǎn)觉是曲线越来越陡,而且可能对后边我(wǒ)们要(yào)预测(cè)未来的话,包括向更高阶的AGI发展,我 是比较乐观的,可能会看到(dào)比之前更快的速(sù)度去实现了。

主持人:最近OpenAI刚 刚出的O1的新的(de)模型,也是在专业人群里形成了非 常多的影(yǐng)响,现在还在(zài)很丰富的讨论。怎(zěn)么(me)评价O1进展的意义?

 姜大昕:确实(shí)我看到(dào)一些非共识,有些人觉得意义很大,有些人觉得也不过如此。我觉得(dé)大家如果 去试用(yòng)O1的话,可能第(dì)一印象是它的推理能力确实(shí)非(fēi)常(cháng)惊艳,我们(men)自己试了(le)很(hěn)多Query,觉得推理能力确(què)实上了一个(gè)很大的台阶。

 然后我们去思考(kǎo)它 背后的意义究竟是什么,我能想到的有两点(diǎn):1.它第一次(cì)证明了Large language model,就是语(yǔ)言模型,它 可以有(yǒu)人脑的慢思考(kǎo)的能力。它和(hé)以前(qián)GPT的范式(shì),或者GPT的训(xùn)练,它叫(jiào),Predict next Token,它只要这样训练了,就注定了它只有system 1的能力。而O1是用了一个强化学习的训练(liàn)框架,所以带来了系统2的能(néng)力。

   系统1的体现,它是一个直线 性思(sī)维,虽然我们看到GPT4有(yǒu)时候可(kě)以把一个复杂的(de)问题(tí)拆解成很多步,然后分步去解决,但它还是直线性的(de)。系统1和系统(tǒng)2最大的区别在于,系统2能够去探索不同的路径,它能够自我去反思(sī)、自我(wǒ)去纠错,然后不断(duàn)的试(shì)错,直到找到一个正(zhèng)确的(de)途径,这是系统2的特点。这次O1,它是(shì)把以前的模仿学习和(hé)强化学习结(jié)合起(qǐ)来了,使得一个模型同时有了人脑系(xì)统1和系统2的能力(lì)。所以我觉得从这个角度来看(kàn),它的意义是非(fēi)常大的。

  第二(èr),它带来了一个Scaling Law的新方向,我理解O1试图(tú)回答的一个问题,就是说RL(强(qiáng)化学习)究竟(jìng)怎么去泛化。因为(wèi)强化学(xué)习它不是第(dì)一个,DeepMind一直走的是强化学习的路线(xiàn),从 AlphaGo到AlphaFold到AlphaGeometry,其实它在强化学习上是非(fēi)常(cháng)厉害的。但以前强(qiáng)化学习的场景都是会为特定场景去设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构(gòu)。所以这次O1的出现,它是在RL强化学习(xí)通用性(xìng)和泛化性(xìng)上了一个大的台阶,而且它scale到了一个(gè)很大的规模,所以(yǐ)我(wǒ)把(bǎ)它看成scaling带来新的技术范式,我们不妨称之为RL Scaling。而且(qiě)我们看到有意思的一点,O1并没有到很成熟(shú)的(de)阶段,它还是一(yī)个(gè)开端,但是这个恰恰(qià)让人(rén)觉得非常的兴奋,这就等于OpenAI跟我们说,我找到了一条上限很高的道路,而且你仔细去思考(kǎo)它(tā)背后的方法,你(nǐ)会相信这条路实际上是能走得下去。所以O1从能力上来(lái)讲,我(wǒ)觉得它(tā)展示了Language model可以有系统2的能力 ,从技术上(shàng)来(lái)说它带来新(xīn)的scaling范式,所以它的意(yì)义还是非常大的。

朱军:我的看法,它是代(dài)表着一个显著的(de)质变。我(wǒ)们也对AGI大概做 了一些分级,学(xué)术界,包括(kuò)产业界大家有L1-L5的分级。其实L1的话相当于聊天机器人(rén),就是像ChatGPT等,之前大家做(zuò)了很多对话 的。L2叫(jiào)推理者(zhě),实际上可(kě)以做复杂问题深度思考的推理。L3叫智能体,回应(yīng)吴(wú)总讲的“数字 世界”走向“物理世界”,我要(yào)去改(gǎi)变的,我要去交互(hù)的。L4是创新者,它要去发(fā)现、创造一些(xiē)新的东西,或者发现一些新的知识(shí)。L5是组织者,它可以去协同(tóng),或者某种组织方式更高效来运转,这(zhè)是大家(jiā)对于AGI L1-L5的分级(jí),当然每一(yī)级也有narrow和general的区分,在某些(xiē)Task上展示出来。比如O1在L2的(de)narrow场景下,在一些特定任务下已经实现(xiàn)了人类达(dá)到很高阶的智能水平。我觉得从分级角度来看,它确实代表着整个行业巨大(dà)的进步。

   刚(gāng)才技术上姜总也(yě)讲了,它将过去强化学习或者其他 一些技术(shù),其实在研究里已经做了很多东西,但实际上它在大 规模基座模型上能够做出来的效果,这还是从工程上,或者从实现上(shàng)来说对(duì)行 业很大的触动。当然它(tā)也会错发或(huò)者激发出来很多未来的探索,或者实际的研发,可能会走向从narrow到general的跃迁。刚才讲到速度,我相(xiāng)信它会很快 ,因(yīn)为大家已(yǐ)经(jīng)有很多准(zhǔn)备(bèi)了,我也期待这个领域里更多将L2做得(dé)更好,甚至更高阶的能实现。

      杨植麟:我觉得它的意义确实是很大,主要意义在于它(tā)提升(shēng)了AI的上限。AI的上限是说,你现在去提升5%、10%的生(shēng)产力 ,还是说10倍的GDP,我觉(jué)得这里最重要(yào)的问题就是你能(néng)不能(néng)通过强化(huà)学习进(jìn)一步scaling,这是(shì)完全(quán)提升了AI上(shàng)限(xiàn)的东西。我们如果(guǒ)看AI历(lì)史上七八十年的发展(zhǎn),唯一(yī)有(yǒu)效的就是scaling,唯一有效的就是(shì)加更多的算力。但在O1提(tí)出之前,可(kě)能(néng)也有很多人在研究强(qiáng)化学习,但都没有一个非常确切的答案,强化学习如(rú)果和大语言模型,或者(zhě)和training processin这些东西(xī)整合在一起,它(tā)能否持续 提升。比如GPT4这一代模型的提升,更多是确定性的提升(shēng),我在一样范(fàn)式下把规模变得更大,它肯定是确定性的提升。但是我觉得O1的提升并不是一个完全确定(dìng)性的,这样(yàng)的提升。

   所以在(zài)之(zhī)前大(dà)家可能会担心现在互(hù)联网上大部分优质数据都已经被使用完了,然(rán)后你可能继续使用这个数据也(yě)没有(yǒu)更多 数据可以挖掘,所以你原来的范式可能(néng)会遇到问(wèn)题(tí)。但AI有效了,你又需要(yào)进一步scaling,那(nà)你(nǐ)这个scaling从哪里来(lái),我觉得很大程度上解决了这个问(wèn)题,或者(zhě)说至少证明了它初步可(kě)行。初步可行的情况下,可能我们会有越来越多(duō)人投(tóu)入去做这个事情,最(zuì)终你要做(zuò)到 10倍GDP的最终效果,它完(wán)全有可能,我觉得是一个很重要的开端。

   我觉得对很多产业格局上,或者(zhě)对于(yú)创业公司新机会来说也(yě)会发生一些(xiē)变化。比如(rú)我觉得 这里很关键的一个(gè)点,你的训练和推(tuī)理算力占比是会发生很(hěn)大的(de)变化,这个变化我不是说训练(liàn)的算力会下降(jiàng),训(xùn)练的(de)算力还会持续提升(shēng)。与此同(tóng)时(shí),推理的算力提升会更快,那这个比例的变化本质上会产生很 多新的机会,可能这里很多新(xīn)的创业公(gōng)司的机会。一方面,如果你达到一定(dìng)的算力门槛,它可以在(zài)这里做很多算法的基础创新,那你可(kě)以在基础的(de)模型上甚至取得突破,所以(yǐ)我觉得这个很重要。

对于算力相对小一点的公司,它也可以通过后训练(liàn)的方式,在一些领域(yù)上做到一些效果,这里(lǐ)也会产生更多的产品和技术机会,所以我觉得整体也是打开了创(chuàng)业相关的(de)想象空间。

主持人:这一(yī)波AI新的变化,接下来会对AI相关的产(chǎn)品带来什么样的连锁反应,这个变化如(rú)何(hé)发生?

<阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”p cms-style="font-L">杨植麟:这是很(hěn)好的问(wèn)题,我们现在还 是处于产业发展的早期。产业发展的早(zǎo)期有(yǒu)一(yī)个(gè)特点,还是技术 驱动产品会更多,所(suǒ)以很(hěn)多时候你的产品会去看当 前的(de)技术是怎么发展,然后把它最(zuì)大化的价值提(tí)取出来,所以这 个问题首先非(fēi)常好,可能我们根据这个新的技(jì)术进展,再返过来推一下现在产品应该做什么变化。

   现在的技术(shù)发展有几个点:

   一个,我觉得这里面会有很多探(tàn)索新的PMF(product market fit)的机(jī)会。我觉得PMF指的是两个(gè)东西(xī)的平衡:一方面是由于你需要做这种(zhǒng)系统2的思考,导致你的延时增(zēng)加。对用户来(lái)说,延时(shí)增加(jiā)是一个负 向的体验,因为所有(yǒu)用(yòng)户都希(xī)望我尽快(kuài)能拿到结果;第二个点,它确实能提供更好的输出,能拿到更好的结(jié)果(guǒ),甚至能完成一些跟更复杂的任务。等于说新的PMF产生的过程或者探(tàn)索的过程,其实是要在在(zài)延时增长的用(yòng)户(hù)体验(yàn)下降和最后结果产生质量(liàng)更高的用户价值(zhí)的上升之间找到一个平衡点。所以你要让这个增量的价值是大于体(tǐ)验的损失,我觉得这个很重要(yào)。所以在这里面更高价值的场景,特别是生产力的场景,我觉得(dé)会(huì)率先有一些东西(xī)出来。因为如果你是一个(gè)娱乐场景,大概率你可(kě)能很难(nán)忍受(shòu)这(zhè)种延时上(shàng)的增加。所以,我觉得这(zhè)是比较重要的一点

   产品形(xíng)态(tài)上,我(wǒ)觉得也会发生(shēng)一些变化(huà)。因 为你引入这种思考的范式,所以(yǐ)现在同步及时的类似聊天的产品形态一定会发生变化。因(yīn)为以后的AI,可能它不光是现在思考个20秒、40秒,它已经可能要思考或者调用各种工具,它可 能执行分钟级别、小时级别甚至天级别的任(rèn)务,所以(yǐ)你的产品形态上可能会(huì)更接近(jìn)一个人,它更接(jiē)近“助理(lǐ)”的概念,帮(bāng)你完(wán)成异步的任(rèn)务。这里面(miàn)的产(chǎn)品形(xíng)态设计,我觉得可能也会(huì)发生(shēng)很大的变化。所以这里面,我觉得新的想象空间蛮大的。

 朱军:我觉得大模型或者大规模预(yù)训(xùn)练的(de)技术代表(biǎo)着整个范式的变化,前面也聊到很多,不光是语言,到多模态,到具身、空间智能(néng),中间还是(shì)想我(wǒ)怎么去让智能体能够有交互,能够在这个过程中来学习。从智能(néng)的角度来看,包括从AGI发展 上,它是一个必然(rán),因为(wèi)决策、交互实(shí)际上是我们说的智能里面非常核心的能力(lì)的体现。我们每时每刻其实都(dōu)在做决策,我们面对的是一个未知的开放环境,所以对于(yú)智能来说,它的发展路径上,在整个规划里面 大家也是朝着这个方向走。

   现(xiàn)在所有这些进(jìn)展,包括刚刚(gāng)讨论很多的O1,包括做视频生成,或者3D,这些东西大家最(zuì)后要指向的有两个方向:

  一个是给消费者看到的(de)这些(xiē)数字内容,就是说(shuō)看上去很(hěn)好(hǎo)看、很自然,能够讲故事(shì),能够让大家参与讲故事、能够交互。这肯(kěn)定是一个很重要的方(fāng)向(xiàng),在数(shù)字内容上(shàng)。

   另外一(yī)个(gè)方向,指 向实体、指向物理世界。

现在可能最好的一个结合点就是和机器人来结合在一(yī)起。其实现在(zài)已经有(yǒu)好多例 子在展 示出来,我们(men)也看到(dào)很好的一些进展(zhǎn),比如用了预 训练的范式,如何(hé)让机器人的能力具有通用性;比如我(wǒ)们自己实验室(shì)做多的(de)例子,像四(sì)足机器人,过去大(dà)家在不同场地上,你要让(ràng)它跑起来都需要用很(hěn)多的人工(gōng)调 参。但现在你在一(yī)个(gè)仿真(zhēn)环境里面,或(huò)者用一些(xiē)AI的(de)方式来 生成一些合成数(shù)据,让它在里面大规模(mó)地(dì)训练(liàn),训练(liàn)出来(lái)的策略可以(yǐ)灌 到机器人上(shàng),它相(xiāng)当于换了一副大脑(nǎo),可以让(ràng)它(tā)的四肢更好(hǎo)地协同起来,同样一套策(cè)略可以做各种(zhǒng)场地的适应。其实这还是(shì)一个初步的例子,现在大家也在关注更复杂的控制(zhì)决策,就像空间智能(néng)、具(jù)身(shēn)智能。

   就(jiù)像刚才讲到智能体是AGI的(de)L3,所以现在用(yòng)到(dào)L1、L2的进展(zhǎn)之(zhī)后,后面肯定会提升到L3,让机器人更好地做它的推理规划,然后更好更高效地和环(huán)境做交互,更 好地(dì)完成(chéng)我(wǒ)们的复杂(zá)任(rèn)务。因为现在很多时候任务相对(duì)来说分散,给它(tā)定义成(chéng)一个简化的。未来(lái),我 们很快可以看(kàn)到它(tā)可以接受复杂的指令(lìng)、完成复杂的任务,通过它内嵌的思维链或者过程的学(xué)习方式,能(néng)够完成复杂(zá)任务。所以到那个时候,智能的能力又 有一(yī)个很巨大的提升。

阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”le="font-L strong-Bold">主持人:虽然意(yì)料未来都很(hěn)难,至少心里会有一个期待(dài),比如在下一(yī)个18个月(yuè)里,我们希望看到什么样的进展,在AGI的领域里(lǐ)?

朱军:因为现在整个是一个加速,其实很多时(shí)候我们预测通常会过于保守。如果回到你的问题,我预想未来18个月可能比较令人兴奋的一(yī)个进展,我希望看到AGI的L3已经基本上实现。至少在智能(néng)体,比如我(wǒ)们说的世界(jiè)模型的创建生成、虚实融合,至少在一(yī)些特定场景下的决策能力的巨大的提升。其实它会利用我(wǒ)们今天(tiān)讲到的推理、感知等等。

因(yīn)为我前一段时(shí)间领了(le)一个(gè)任务(wù),就是对L4做专门(mén)的分(fēn)析,就是到底 我们缺什么?做了(le)L4的。其实最后调研或者是分析(xī)下来,你会发(fā)现如果我们要做科学发现或者做创新,它需(xū)要 的那些能力,可能目前是散落在各个角(jiǎo)落里面,当然现(xiàn)在可(kě)能还缺一个系统怎么把这些东西 集成在一起,给它做work。所以我觉得(dé)如(rú)果更(gèng)激进一点,我甚至觉得未来18个月可能在L4上也会有显著的进展。当然这里面我讲的是严(yán)肃的科学发现,其实L4还有一些创意的表达上,目前我们在某种(zhǒng)意(yì)义(yì)上(shàng)已经达到了,比(bǐ)如说艺术创造、图(tú)生视频,一定程度上它已经帮(bāng)大家放大你的想象,或者让你的想象可以具象化(huà)。所以,我对(duì)整个(gè)于是还是比(bǐ)较乐观的,我觉得(dé)至少L3或者未(wèi)来L4有一些苗子了。

到今年年底,希望将我们本来做的视频模型能够以更加高效、更可控的方式提供(gōng)给(gěi)大家。

   我解释一下高效和(hé)可控。可控,比如你想表达一个故事,不是简单地将一段话或者一个图片(piàn)给它动起来,我们是希望你(nǐ)可以连续地讲 ,而(ér)且它(tā)不光是人的一致性,还包括物体等各种主题的一致性,还包括交互性;高效,它一方面解决对算力(lì)成(chéng)本的考量,因(yīn)为你如果想要(yào)服务很(hěn)多人,让大家(jiā)用的话,首先(xiān)你成本要降(jiàng)下来,不然这个(gè)本身就是烧(shāo)钱,一直赔(péi)钱。另外一个更重要的,还是从体验上。就(jiù)使用者来说,因为他想表达自己的创(chuàng)意,他可能需要多(duō)次和系统来交互,一方面是验证,另外(wài)一(yī)方面是启发,所以这个过程也需要你(nǐ)的模型系统能够比较高效,比如说终(zhōng)极(jí)目标达到实时,能(néng)够让大(dà)家快速尝试。等到这个阶段,我相信大家 的用户体验,包括用户量都会有一个巨大的提(tí)升(shēng),这是我们 今年想重点突破的。当然长远的(de)话,可能明年18个月(yuè)会(huì)走向 实(shí)体的虚实融合的场景了。

   杨植(zhí)鳞:我觉得接下 来最重要的(de),可(kě)能是开放性的(de)强化学习,比如说你 在产品上(shàng)跟(gēn)用(yòng)户交互,在一个真实的环境里面完成任务,然(rán)后自己去进(jìn)化。当然,我觉得O1一定程(chéng)度上说明这个方向有比之前更强的确定性,我觉得这个会是一个重要的里(lǐ)程碑(bēi),也是AGI路(lù)上现在仅甚唯一的一个重要(yào)问题了。所以,我觉得这个会(huì)很(hěn)关键。

   张鹏:对,18个月已经是很长了,如(rú)果看看看过去18个月走的路。你未来3个(gè)月,有什么可以透露(lù)的吗?

   杨植鳞:我们还是希望能够在产品 和(hé)技(jì)术上持续地创新,至少可能在(zài)一两个重要(yào)领域能够做到世界最好,但是(shì)有新的进展会尽快跟(gēn)大家分享(xiǎng)。

   姜大昕:第(dì)一,我也很期待(dài)强化学习能够(gòu)进一(yī)步泛化。另外一个(gè)方向其实我也很期待,应该说期待了很久就是(shì)在视觉领域的理解和生成一体化的(de)事情。因为在文字领域,GPT已(yǐ)经做到了理解生(shēng)成一体化(huà),但(dàn)遗憾的是在视觉领域,这个问题(tí)当(dāng)然(rán)不(bù)是遗憾(hàn),它(tā)非常难。所以在目前为止,我(wǒ)们看到的视觉的理解和生成(chéng),这两(liǎng)个模型是分开(kāi)的。即使像刚才说的多模融合,如果大家仔细(xì)看GPT4,它其他(tā)模态都解(jiě)决(jué)了,它唯独不能生成视频,所以这是一个(gè)悬而未(wèi)决的事情。

  它为(wèi)什么很重(zhòng)要呢?如果我们解决了视频理解生成一体化(huà),我们(men)就可以彻(chè)底建立(lì)一个多模的世界模(mó)型,有一个多模的世界模型以后,可以(yǐ)帮助我们真正产生非(fēi)常长的视频,也(yě)就是说解(jiě)决Sora(音译)目前的技(jì)术缺 陷。还有一个,它(tā)可以和具身智能相(xiāng)结合(hé),它可(kě)以(yǐ)作为机器人的大脑去帮(bāng)助智能体更(gèng)好地探索物理世(shì)界,所以我也是非常期待的。

   张鹏:你未来年底之(zhī)前,有什么我们值得期待的你的进展?

   姜大昕:我也是期待一方面模型和(hé)技术(shù)的进步,另外一方面产品能带给用户更多 更好的体验,其实阶跃有一款产品(pǐn)叫“跃问”,在上(shàng)面(miàn),用户可(kě)以体验我们最新的万(wàn)亿参(cān)数的模型,它不(bù)光是理科很强,而且它的文学创(chuàng)作能力也(yě)很强,经(jīng)常给(gěi)大家(jiā)带来一些(xiē)惊(jīng)喜。同时,跃问上还有一个新的功能叫“拍照问(wèn)”,我 们看到用户经常拍张照片去问食(shí)物的卡 路里,去问(wèn)宠物的心(xīn)情,问一个文(wén)物的前世今(jīn)生,包(bāo)括Mata眼镜(jìng)的发布,还有Apple Intelligence,它今年都突出了视觉交互的功能。所以我(wǒ)们在跃问上也(yě)有体现,而且我们会努力一(yī)步(bù)步(bù)把(bǎ)这个(gè)功能(néng)做得越来(lái)越好。

未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

评论

5+2=