阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月(yuè)20日消息,在2024云栖大会上,极客(kè)公 园创始(shǐ)人(rén)、总裁 张鹏对话阶跃星辰创始人(rén)、首席执行(xíng)官姜大昕,月之暗面Kimi创始人 杨植麟,清华(huá)大学人工智能研究院副院长、生(shēng)数(shù)科技首席科学家朱军,三(sān)人(rén)对AGI发展现状和未来(lái)展望进行了激烈(liè)讨论(lùn)和前瞻展望。
2024年,AI 发展(zhǎn)变慢了吗?过去18个月,AGI的发展是加速还是减速?如何评(píng)价OpenAI 最新发(fā)布的 O1 模型?强(qiáng)化学习(xí)将改变什么(me)?大模型时代的创业新范式是(shì)什么?
姜大昕表示AI 技术发(fā)展加速, AI 发(fā)展正在经历关键的技术范式迭代: OpenAI 的大模型 o1 探索出了通过强化学习让 AI 具备人类慢思考(可主(zhǔ)动反思、纠错的复杂思(sī)考)能力的方(fāng)式,接下来提升强化学习模型的泛化能力和加速推进多模态(tài)理解生(shēng)成一体化是 AI 技术进一(yī)步突(tū)破的关键。阶跃星辰积极探索新的技术范(fàn)式,已经(jīng)在万亿参数模型上实(shí)现了强化学习训练的方法论。同(tóng)时(shí),持续打磨更高性能的底层大模型,提升C端(duān)产品体验。据他透露,近期阶跃星辰自研的 Step-2 万亿参数 MoE 语言大模型已(yǐ)接入(rù)智能助手“跃问”,展现出(chū)更强大的指令跟随(suí)、创作和推理能(néng)力。
谈到AI产品未来的可能形态,杨(yáng)植麟表(biǎo)示,以后(hòu)的AI可能要(yào)思考或者调(diào)用各种(zhǒng)工具(jù),它可能执行分钟级别(bié)、小(xiǎo)时级别甚至天级别的任务,所以(yǐ)产品形态上可能会(huì)更接近一个人(rén),它更接近“助理”的(de)概念,帮你完成异(yì)步的(de)任务(wù)。这里面的产品形态设计可能也会发生很大的变化,想象空间蛮大。
谈(tán)到未(wèi)来18个可能发生的事情,朱军表示,预想未来18个月(yuè)可能比较(jiào)令人兴奋的(de)一个进(jìn)展,我希(xī)望(wàng)看到(dào)AGI的(de)L3已经基本上实现。至(zhì)少在智能(néng)体,比如我们(men)说的世界模型的(de)创建生(shēng)成、虚实融合,至少在一些特定场景下的决策能力的巨大的 提升。其实它会利用我们今天讲到的推理、感(gǎn)知等等。
以下为对(duì)话实录摘录:
主持人:从ChatGPT的发展,引发了整个世界对于AGI这个事情的理解,发展到现在也18个月(yuè)了。各位的感受是怎么样(yàng)的,过去18个(gè)月(yuè),AGI的发(fā)展(zhǎn)是加(jiā)速还是减速?
姜大昕:我觉得过去18个月速度还是在加速的,速度还是非常快的。因为当我们回顾过去18个月发(fā)生的大大(dà)小小的AI事件以后,可(kě)以从(cóng)两(liǎng)个维度去(qù)看,一个是数(shù)量的角度,一个是质(zhì)量的角(jiǎo)度。
从数量(liàng)的角(jiǎo)度来看,还是每个月都会有新(xīn)的模型、新的(de)产品、新的(de)应用涌现出来。比如单从模型来(lái)看,OpenAI 2月(yuè)份发了一个sora,我记得当时还是过年的时候,把大家轰炸了一下。然后5月份出了一个GPT-4o,上周又出了o1。OpenAI的老对手Anthropic它有Claude3到Claude3.5的系列,再加上谷(gǔ)歌Gemini系(xì)列、Claude系列、LLaMA的系列,等等。
所以,回顾(gù)过去 ,我(wǒ)们的(de)感觉(jué)还是GPT-4是一家(jiā)独大,遥遥领先。到了今年就变成了一个好像是群(qún)雄并起,你追我(wǒ)赶的局面,所以感(gǎn)觉各(gè)家是在提速了。
从质量的角度来看(kàn),我(wǒ)觉得有(yǒu)三件事情可能给我的印(yìn)象非常的深刻。
第一件事情,GPT-4O的发布。因为我看它,认为它 是在多模融合这样的一(yī)个 领域上了一个(gè)新的台阶。在GPT4O之前,是有GPT4V,它是一个视觉的理解模型,有(yǒu)Dalle、Sora,这(zhè)是视觉的生成模型。还有Whisper这是(shì)声音模型。所(suǒ)以原本这些孤立 的模(mó)型到了4O这(zhè)里都融合在一起了。
那为(wèi)什么融合这件事情非常的重要?是因为我们(men)的物理世(shì)界本身就是一个(gè)多模的世界,所以(yǐ)多模融合一定是有助于更好(hǎo)的去为我们的物理世界建模,去模拟世界这样一件事情。
第二件事情,特斯拉发布的FSD V12。大家知道它是一个端到端的大模型,它把感(gǎn)知信号变成一个控制序列。智驾是一个非常有代表性的,它是一个从数字世界走向物理世界一个真实的应用场景。所(suǒ)以(yǐ),我觉得FSDV12它的成功,意(yì)义不仅(jǐn)在于智驾本身,这套方(fāng)法论可以认为是为将来的智能设备如何和大模型相(xiāng)结(jié)合,更好的去探索物理(lǐ)世界指明了一个方向(xiàng)。
第三件事情,上周的(de)O1,我对它的理解,它第一(yī)次证明(míng)了语言模型其实(shí)也可以有(yǒu)人脑的慢思考,就是(shì)系统2的能力。而我(wǒ)们觉得系统2的能力它(tā)是(shì)归(guī)纳世界所必备的一个(gè)前提条件,是(shì)一个基础的能力。所以,我们一直(zhí)认为,AGI的演进(jìn)路(lù)线可以(yǐ)分为模拟世界、探索(suǒ)世界、最后归纳世界。而过去几(jǐ)个月的时间我们看到GPT4O、FSD V12和O1分别在这三个(gè)阶段或者这三个方向上(shàng)都取得了非常大的突破,而且更重要的(de)是为将来的发展也指明了(le)一个方(fāng)向。所以无论是(shì)从数量还是质量上来说,都是可圈可点。
杨植麟:我觉得整体也是属于加速发(fā)展(zhǎn)的阶段,核心(xīn)可以从两个(gè)维度来看(AI的发展),第一个(gè)维度是纵向的维度,也就是说你的智商是一直在提(tí)升的,这个主要现在的反应方式还是你去看文本模型能做(zuò)到多好。第二个是横向的(de)发展(zhǎn)。除了文本模(mó)型之外,刚才姜总提到的,也会有各种不同(tóng)的模态,这些模态会(huì)做一(yī)个(gè)横向的发展,更(gèng)多(duō)的让你(nǐ)这(zhè)个模型(xíng)具(jù)备更多的技(jì)能,能够去完成(chéng)更多的任务,然后同时跟纵向(xiàng)的智商的发展相结合。
在这两个维度上,我觉得都看到了非常大的(de)进展,比如说在纵向的维度上,其实智商是一(yī)直在提升(shēng)的,比如说我们如果(guǒ)去看竞赛数学能力,去(qù)年是完全不及格,到今年已(yǐ)经能做到90多(duō)分,像代(dài)码基本上(shàng)也是一样,能够击败很多专业的编程选手,包括因此也(yě)产生了(le)很多新的应用机会,比如说像现在比较(jiào)流行的(de)类似curser这样的,通过自然语言直(zhí)接去写代码的这样的软件(jiàn)也越来越普及,这是技术发(fā)展的结果。包括我们去看很多具体的(de)技术指标,现在的语言模型能(néng)支持的上下(xià)文(wén)的长度(dù),我(wǒ)们如果去年这个时(shí)间点去看的(de)话,大部分(fēn)的模型都只能支持4K-8K的(de),但是从今天(tiān)去看你(nǐ)会发现4K-8K已经是非常低的数了,128K是一个标配(pèi),已经有很多可以支持1M甚至10M的(de)长文(wén)本(běn)的长度(dù)。所(suǒ)以,它这个其实(shí)也是后(hòu)面(miàn)你的(de)智商不断(duàn)提升的一个(gè)很重要的(de)基础。
包括最近的(de)很多(duō)进展,它(tā)不(bù)光只是(shì)说Scaling,Scaling还是会持续(xù)。而且很多进展也来自于你(nǐ)的后训练算法的优化(huà),来自于你数据的优化,这些优化它的周期是会(huì)更短的。所以,这个周期更短导致你整体AI发展节(jié)奏也会进一步加快,包(bāo)括我们最近在数学上看(kàn)到的(de)很多进(jìn)展,其实也是(shì)得(dé)益于(yú)这(zhè)些技术的发展(zhǎn)。
横向(xiàng)上当然也产生了很多新的突破,当然Sora可能是影响力最大的(de),在这里面(miàn)完成(chéng)了这个视(shì)频生成。包括最近有特别多新的产(chǎn)品(pǐn)和技术(shù)出来,现(xiàn)在(zài)你已经可以(yǐ)通(tōng)过一个论文直(zhí)接生(shēng)成基本上你看不出(chū)来是真是假的双人(rén)的对话(huà)。类似这样的不(bù)同(tóng)模(mó)态之间的转化、交互和生成,其实会变的越(yuè)来越成熟。所以,我觉得(dé)整体是(shì)在加速的(de)过程(chéng)中。
朱军:AGI这里面大家最关注的(de)还(hái)是大模型,刚才两位也(yě)讲了去年包括今年大模型也发生了很多重(zhòng)要的变化。整个的进展我是非常同意(yì)刚才讲到的,在加快。
另外,我想补充一点,大家在解新的问(wèn)题,这个(gè)速度也在加快了,我(wǒ)们说它的Leaning corve在变的更陡。原来(lái)如果你看(kàn)语言模型,可能从2018年最早(zǎo)去做的,到去年以及到今年,大家走了五六年的路。但(dàn)其实从(cóng)去年开始,上半年大家还是关注语(yǔ)言模型,下半(bàn)年(nián)在讨论多模态,从多模态理解(jiě)再到多模态生成。我们再回(huí)过头看(kàn)的话,比(bǐ)如说图像或者(zhě)视频,其实视频最明(míng)显,从今阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”年的2月份,当时(shí)很多人被震惊(jīng)到了,因为它很多没有公开,就说怎么去突破?有很多的讨论。但(dàn)事实上我们现在看到这个行业(yè)里面,大概用了半年的时间,已经做到了可以去用,而且(qiě)达到(dào)了一个很好的一些效果,在时空一致性上。所以大(dà)概走了半年的路。
所以这里面加(jiā)速的一个最核心的原因,现在大家对这种(zhǒng)路线的认知和准备上,达到了(le)比较好的程 度。当然我们(men)还有物理的条件,比如说(shuō)像云的(de)设施,计算的资源的准备上,不像ChatGPT当时出来的时候,大家(jiā)当时(shí)更(gèng)多的是一种不知(zhī)所措,我觉得很多人可能没准备好去接受这个,所以中间(jiān)去花了很长时间去学习(xí)、去掌握这(zhè)个。当我(wǒ)们掌握(wò)了之后再发现这(zhè)个进展的话,再(zài)去做(zuò)新的问题,其实它的速度是越(yuè)来越快(kuài)的。
当然,这个可 能不同的(de)能力它再辐射到实际的用户的角度来说,有一些快慢之分,当然也(yě)分行业。这个可能在广泛(fàn)的角(jiǎo)度来说,大家可能没感知到。但是(shì)从技术来说,其(qí)实这个进展我感觉是(shì)曲线(xiàn)越来越陡,而且可能对后边我们(men)要预测未来(lái)的话,包括向更高阶(jiē)的AGI发展,我是比较乐观的,可能(néng)会看到比之前更快的速度去实现了。
主持人:最近OpenAI刚刚出的O1的新的模型,也是在专业人(rén)群里形成了非常多的(de)影响(xiǎng),现在还在很(hěn)丰富的讨论。怎么评价(jià)O1进展的意义?
姜大昕:确实我看到一些非共识(shí),有些(xiē)人觉得意义很大,有些人觉得(dé)也不过如此。我(wǒ)觉得大家如果去试用O1的话,可能第一印象是(shì)它的推(tuī)理能(néng)力确(què)实非(fēi)常惊艳,我们自己试了很(hěn)多Query,觉得推理能力确实上了一个(gè)很(hěn)大的台(tái)阶。
然后(hòu)我(wǒ)们去思考它背后的意义究竟(jìng)是什么,我能想到的有两点:1.它第一次证(zhèng)明了Large language model,就是(shì)语言模型,它可以有人脑的慢(màn)思考的(de)能力。它和以前GPT的范式,或者GPT的训练,它叫,Predict next Token,它只要这样训练(liàn)了(le),就注定了它只有system 1的能力。而O1是用了一(yī)个强化学习的训练框架(jià),所以带来了系统2的能力。
系统1的体现,它是一(yī)个直线性思维,虽然我(wǒ)们看到GPT4有(yǒu)时候可以把一个复杂的问题(tí)拆解成(chéng)很(hěn)多步,然(rán)后分步去解决,但它还(hái)是(shì)直线性的。系统1和系统2最大的区别在于,系统2能够去探索不同(tóng)的路径,它能够(gòu)自我去反思、自我去纠(jiū)错,然后不断的试错,直到(dào)找到一(yī)个正确的途径,这是系统2的特点。这次O1,它是把以前的模仿(fǎng)学习和强(qiáng)化学习结合起来了,使得一个模型同时(shí)有了人(rén)脑系统1和系统2的能力。所以我觉(jué)得从这个角度(dù)来看,它的(de)意义是非(fēi)常大的。
第二,它(tā)带来了一个Scaling Law的新方向(xiàng),我理解O1试图回答的一个问题,就是说RL(强化(huà)学(xué)习)究竟怎么去泛化。因为强化(huà)学习(xí)它不是第一个,DeepMind一直走的是强化学习的路线(xiàn),从AlphaGo到AlphaFold到AlphaGeometry,其实它在强化学习上是非常(cháng)厉(lì)害(hài)的。但以前强化学习的场景都是会为特定场景去(qù)设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。所以这次O1的(de)出(chū)现(xiàn),它是在RL强化学习通用性和泛化性上了(le)一个(gè)大(dà)的台阶阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”,而且(qiě)它scale到了一个很(hěn)大的规模(mó),所以我把它看成scaling带来新的技术范式,我(wǒ)们不妨称之为RL Scaling。而且我们看到有意思(sī)的一点,O1并没有到很成熟的阶段,它还是一个开端,但是这个恰恰(qià)让人(rén)觉得非常的兴(xīng)奋,这就等于OpenAI跟我们说,我找到了一条上限很高的(de)道路,而且你仔细去思考它背后的方(fāng)法,你会相(xiāng)信这条路(lù)实际(jì)上是能走(zǒu)得下去。所以O1从能力上来讲,我觉得它展示了Language model可(kě)以有系统2的能力,从技(jì)术上来说它带来新的scaling范(fàn)式,所以它的意(yì)义还是非常大的(de)。
朱(zhū)军:我的看法,它是(shì)代表着一个显著(zhù)的质变。我们(men)也对AGI大概(gài)做了一(yī)些分级,学术界,包括产业界(jiè)大家(jiā)有L1-L5的分(fēn)级。其实L1的话相当于聊天(tiān)机器人,就是像(xiàng)ChatGPT等,之前(qián)大家做了很多对话的。L2叫推理者,实际上(shàng)可以做复杂问题深度思(sī)考的推理。L3叫智能体,回应吴总(zǒng)讲的“数(shù)字世界”走向“物理世界”,我要去改变的(de),我要去交互的。L4是创新者,它(tā)要去发现、创造一(yī)些新的东西,或者发现一些(xiē)新的知识(shí)。L5是组织者,它可以去协(xié)同,或者某种组(zǔ)织方式更高效来运转,这是大家对于AGI L1-L5的分(fēn)级,当然每一级也有narrow和general的(de)区分,在某些Task上展示出来(lái)。比如O1在L2的narrow场景下,在一些(xiē)特定任务下已经实现了人类达到很高阶的智能水平。我觉得从分级角度(dù)来看,它确实代表着整个行业巨大的进(jìn)步(bù)。
刚(gāng)才技术上姜总也讲了,它将过去强化学(xué)习或(huò)者其他一些技术,其实在研究(jiū)里已经(jīng)做(zuò)了很多(duō)东(dōng)西,但实际上它在大规(guī)模基座模型上能够做出来(lái)的效果,这还是从(cóng)工程上,或者从实现(xiàn)上来说对行业很大的触动。当然它也会错发或者激发出(chū)来很多未来的(de)探索,或者(zhě)实际(jì)的研发,可能(néng)会走 向从(cóng)narrow到general的跃迁。刚才讲到(dào)速度,我相(xiāng)信它会很快,因为大(dà)家(jiā)已经有很多准备了(le),我也期待这个领(lǐng)域里(lǐ)更多将L2做得更好,甚至更高阶的能实现。
杨植(zhí)麟:我觉得它的意义确实是很大,主(zhǔ)要意义在 于它提升了AI的(de)上限。AI的上限是说,你(nǐ)现在去提升5%、10%的生产力,还是说10倍的GDP,我觉得这(zhè)里最重要的问题就(jiù)是你能(néng)不能通过强化学习进一步scaling,这是完全提升了AI上限的东西。我们(men)如果看(kàn)AI历史上七八十年的发(fā)展,唯一(yī)有(yǒu)效的(de)就是scaling,唯一有效的(de)就是加更多(duō)的算力。但在O1提出之前,可能也有(yǒu)很多人在研究强化学习,但都没有一个非常确切的答(dá)案,强化学习(xí)如(rú)果和大语言模(mó)型,或者和training processin这些东西整合在一起,它能否持续提升(shēng)。比如GPT4这一(yī)代模型的提升,更多(duō)是确定性的提升,我(wǒ)在(zài)一样范(fàn)式(shì)下把(bǎ)规(guī)模变得更大,它肯定(dìng)是确定性的提升。但是我觉得(dé)O1的提升并不是一个完全确定(dìng)性的,这样的提升。
所以在之前大家可能(néng)会担心现在互联网上大部分优质数(shù)据都已经被使用完了(le),然后你可能(néng)继续使用这个数据也没有更(gèng)多数据可以挖掘,所以你(nǐ)原来的范式可能会遇到问题。但AI有效了 ,你又(yòu)需要(yào)进一步scaling,那(nà)你这个(gè)scaling从哪里来(lái),我觉得很大程度上解(jiě)决了这个问题(tí),或(huò)者说至(zhì)少证明了它(tā)初步可行。初步可行的情(qíng)况(kuàng)下,可能我们会有越来越多人投(tóu)入(rù)去做这个事情,最终你要做到10倍(bèi)GDP的最终效果(guǒ),它完全(quán)有可能,我觉得是一个(gè)很(hěn)重 要的开端。
我觉得对很(hěn)多产业格局上,或(huò)者对于创业公(gōng)司新机会来说也会发生一些变化。比如我阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”觉得这里很关键的一个点,你的(de)训练和推理算力占比是会发(fā)生很大的变化,这(zhè)个变化我不(bù)是说(shuō)训练的算力会下降,训练的(de)算(suàn)力还会(huì)持续 提升。与此同时,推理(lǐ)的算(suàn)力提升(shēng)会更快,那这个比例的变化(huà)本质上会产生很多新的机会,可能这里很多新(xīn)的创业公司的机会。一方面,如(rú)果你达到一(yī)定的算力门槛,它可(kě)以在这里做(zuò)很多算法的基础(chǔ)创新,那你可以(yǐ)在基础的模型上甚至取得突破,所以(yǐ)我觉得(dé)这个很重要。
对(duì)于算力(lì)相(xiāng)对小一点的公司,它(tā)也可以通过(guò)后训练的方式,在一些领域上做到(dào)一些效果,这里也会产生更多的产品和技术机会,所以我觉得整体也是打开了创业相关的想象空间。
主持人:这一波AI新(xīn)的变化,接下来会对AI相关的产品带来什么样的连锁(suǒ)反应,这个变(biàn)化如何发生?
杨植麟(lín):这是很好(hǎo)的问题,我(wǒ)们现在(zài)还(hái)是处(chù)于产业(yè)发展的早期。产业(yè)发展的早(zǎo)期有一个特点,还是技术驱动产品会更多,所以很多时候你的产品会去看当前的技术是怎么发展,然后把它最大(dà)化的价(jià)值提取出来,所以这个问题首先非常好,可能我们(men)根据(jù)这个新的技术(shù)进展,再返过来推(tuī)一下(xià)现在(zài)产品(pǐn)应该做什么变化。
现在的技(jì)术发展有几个点:
一个,我觉得这里面会有很多探索新的PMF(product market fit)的(de)机会。我觉得PMF指的是两个东西的平衡:一方面是由于你需要做这种(zhǒng)系统2的(de)思考(kǎo),导致你的延(yán)时增加。对用户来说,延时增加是一个负向的(de)体验,因为所有用(yòng)户都希望我尽快能拿到结果;第二个点(diǎn),它确实能提供更好的输出,能拿到更好的结果,甚至能完成一些跟更(gèng)复杂的任(rèn)务。等于说新的PMF产生的过程(chéng)或者探(tàn)索的过程,其实是(shì)要在在延(yán)时(shí)增长的用户体验下降和最后结果产生质量更高的用户价值的上升之(zhī)间找到(dào)一个平衡点。所以(yǐ)你要让这个增量的(de)价值是大于体验的损失(shī),我觉得(dé)这个很重要(yào)。所(suǒ)以在这里面(miàn)更高价值的 场景,特别是生产力的场景(jǐng),我觉 得会率先有一些东西出来。因为如果(guǒ)你是一(yī)个(gè)娱乐场景,大概率你可能很难忍受这种延时上(shàng)的增加。所以,我觉得这是比较重要的(de)一(yī)点
产品形态上,我觉(jué)得也会发生一(yī)些变化。因为你引入这(zhè)种思考的(de)范式,所以现在同步及时的类似聊(liáo)天的产品形态一定会发生变化。因为以后的AI,可能它不光是现在思考个20秒、40秒(miǎo),它已经可能要思考或者调 用各(gè)种(zhǒng)工(gōng)具,它可能执(zhí)行分钟级别(bié)、小时级别甚(shèn)至天级别的任务,所以你的产品形态上可能会更接近一(yī)个人,它更接近“助理”的(de)概念,帮你完成(chéng)异步的任务。这里面的产品形态设计,我觉得(dé)可能也(yě)会发生(shēng)很(hěn)大的变化。所以这(zhè)里面,我觉(jué)得新的想象空间蛮大的(de)。
朱军:我觉得大(dà)模型或者大规模(mó)预训练的技术(shù)代表着整个范(fàn)式的变化,前面也聊(liáo)到很多,不光是语言,到多模态,到具身、空间智能,中(zhōng)间还是想我怎么去让(ràng)智能体能够有交互(hù),能够在这个过程中来(lái)学习。从智能的角度(dù)来(lái)看,包括从AGI发展上,它是一个(gè)必然,因为决策、交互实际上是我们说的智能里面(miàn)非常核心的能力的体(tǐ)现。我们每时每(měi)刻其实都在(zài)做决策,我们面对的是(shì)一个未知的开放环境,所以对于智能来说(shuō),它的发展路径上,在整个规(guī)划里面大家也是朝着这个方向走。
现在所有这些(xiē)进展,包括刚(gāng)刚讨论很多的O1,包(bāo)括做视频生成,或者3D,这些东(dōng)西(xī)大家最后要指 向的有两个(gè)方向:
一个是给消费者看(kàn)到的这些数字内容,就是说看(kàn)上(shàng)去很(hěn)好看(kàn)、很自然,能够讲故事,能够让大家参与讲故事、能够交互。这肯(kěn)定是一个很重要的方向(xiàng),在数字内(nèi)容上。
另外(wài)一个方向,指向实(shí)体、指向物理世界。
现(xiàn)在可能最好的一个结(jié)合 点就是和机器人来结合在一起。其实现在已经(jīng)有好多(duō)例子在展示出来,我们也(yě)看到很好(hǎo)的一些进展,比如用(yòng)了预训练的(de)范式,如何让机器人的能力具有通(tōng)用性;比如我们自己实验室做多的例子,像四(sì)足机器人,过去大家在不同场地上,你要让它(tā)跑起来都需要用很多的人工调参。但现在你在一(yī)个仿(fǎng)真环境里面,或者用一些AI的方式来生成一些合成数据,让它(tā)在(zài)里(lǐ)面大(dà)规(guī)模地(dì)训练,训练出来的(de)策略可以灌到机(jī)器人上,它相(xiāng)当于换(huàn)了一副大脑,可以让它的四肢更(gèng)好地(dì)协同起(qǐ)来,同(tóng)样一套策略可以(yǐ)做各种场地(dì)的适应。其实这还是一(yī)个初步的例子,现在大家也在关注更复杂的控制决策,就像空间智能、具身智能(néng)。
就像刚才讲到(dào)智能体是AGI的L3,所以现在用到L1、L2的进展之后,后面肯定会提升到L3,让机器人更好地做它的推理规 划(huà),然后更好更高效地和环(huán)境做交互,更好地完成(chéng)我们的复杂任务。因为(wèi)现在很多时候任(rèn)务相对来说分(fēn)散,给它(tā)定义(yì)成一个简化的。未来,我们很(hěn)快可(kě)以(yǐ)看到它可以接受复杂的指令、完成复杂的任务,通过(guò)它内嵌的思维链或者(zhě)过程的学习方式,能够(gòu)完成复杂任务。所以到那个时(shí)候,智能的能力又有一个很巨大(dà)的提升。
主持人:虽然意料未来都很(hěn)难(nán),至少心里会有(yǒu)一(yī)个期待(dài),比如在下一个18个月里,我们希望看到(dào)什么样的(de)进展(zhǎn),在AGI的领域里(lǐ)?
朱军:因为现在整个是一个加速(sù),其实很多时候我们预测通常会过于保守。如果回到你的问题,我(wǒ)预想未来18个月可能比较令人(rén)兴奋的一个进展,我希望看到AGI的L3已(yǐ)经基本上实现(xiàn)。至少在智能(néng)体,比如我们说的世界模型的创建生成、虚实融合,至少在(zài)一些特(tè)定(dìng)场景下的决策能力的巨大(dà)的提(tí)升。其实它(tā)会利用我们今天讲到的推理、感(gǎn)知等等。
因为我前一段(duàn)时间领(lǐng)了一个(gè)任务,就是对(duì)L4做专门的分(fēn)析,就是到底我们(men)缺什么?做了L4的。其实最(zuì)后调研或者是分析下来,你会(huì)发现如果我们要(yào)做科学发现或者做创新,它需(xū)要的那些能力(lì),可能目前是(shì)散落在(zài)各(gè)个角落里(lǐ)面,当然现在可能还缺(quē)一个系统怎(zěn)么把这些东西集成在一起,给它做work。所以我觉得(dé)如果更激进一点,我甚(shèn)至觉得未来18个月可能在L4上也会有显著的进展。当然这里面我讲的是严肃的科学发(fā)现,其实L4还有一(yī)些创意的表达上,目前我(wǒ)们在某种意义上已经达到了(le),比如说艺术(shù)创(chuàng)造、图生视频,一定程度上它已经帮大家(jiā)放大你的想象,或者让你的想(xiǎng)象(xiàng)可(kě)以具象化(huà)。所(suǒ)以,我(wǒ)对整(zhěng)个于是(shì)还是比较乐观的,我觉(jué)得至少L3或者未来L4有(yǒu)一些苗子了。
到(dào)今(jīn)年年(nián)底,希望将(jiāng)我们本来(lái)做的视频模型能够以更加高效、更可控的方式提供给大家。
我解释一(yī)下高效和可控。可控,比如你想表达一个故事,不是简单地将一段话或者一个图片给它动起来,我们是希望你可以连续地讲,而且它不光是 人的(de)一(yī)致性,还包括物(wù)体等各种主(zhǔ)题的一致性,还包括交互(hù)性;高效,它(tā)一方面解决对算(suàn)力成本的考量,因为你如果想要服务(wù)很多(duō)人,让大家用(yòng)的话,首先你成本要降下来,不然这个本身就是烧钱,一直赔钱。另外一个更重要的,还(hái)是从体验上。就使(shǐ)用者来说,因为他想表达自己(jǐ)的创(chuàng)意,他可能需要多次(cì)和系统(tǒng)来交(jiāo)互(hù),一方面是(shì)验证,另外(wài)一方面(miàn)是启发,所以这个过程(chéng)也需要你的模型系统能够比较高效,比如说终极目(mù)标达(dá)到(dào)实时(shí),能够让大家快速尝试。等到这个阶段,我相信大家的用户(hù)体验,包括(kuò)用户量都会有一个巨大的提升,这是我们(men)今年想重点突破的。当然长远的话,可(kě)能明年18个(gè)月会走向实体(tǐ)的(de)虚实(shí)融合的场景了。
杨植鳞:我觉得接下来最重(zhòng)要(yào)的,可能是开放(fàng)性的强化学习,比(bǐ)如(rú)说你在(zài)产品上跟(gēn)用 户交互,在一个真实的(de)环境里面完(wán)成任务,然后自己去进化。当然,我觉得(dé)O1一定程度上说明这个方(fāng)向有比之(zhī)前更(gèng)强的(de)确定性,我觉得这个会是(shì)一个重要的里程碑,也是(shì)AGI路上现在仅(jǐn)甚唯一的一个重要问题了。所(suǒ)以,我觉得(dé)这个会很关键。
张鹏:对,18个月已经是很长了(le),如果看看看过去18个(gè)月走的(de)路。你未来(lái)3个月,有什么可(kě)以透露的吗?
杨植鳞:我们(men)还是希望能够(gòu)在(zài)产品和技术上持续地创新,至少(shǎo)可能在一两(liǎng)个重要领域能够做到(dào)世(shì)界最好,但是有(yǒu)新的进展会尽快跟(gēn)大家分享。
姜大(dà)昕:第一,我也很期待强化学习能够进一步泛化。另外一个(gè)方向其实我也很期待,应该说期待了很(hěn)久就是在视觉领域的理解和生成一体化的事(shì)情。因为在文字领域,GPT已(yǐ)经做到(dào)了理解(jiě)生成一体化,但遗(yí)憾的是在视觉领域(yù),这个问题当(dāng)然不是遗憾,它非常(cháng)难。所以在(zài)目前为止,我们看到的视觉(jué)的理解和生成,这两个模型(xíng)是分开的。即使像刚才说的多模融合,如果大家仔(zǎi)细看(kàn)GPT4,它其他模态都(dōu)解(jiě)决了(le),它唯独不能生成(chéng)视频,所以这是一个悬而未决的事情。
它为什么很重要呢?如果我们解(jiě)决了(le)视频理解生成一体化,我们就可以彻底建立一 个多模的世界模型(xíng),有一个多模的世界(jiè)模(mó)型以后,可以帮助我们真正(zhèng)产生非常长(zhǎng)的视频,也就是说解决Sora(音译)目前的技术缺(quē)陷。还有一个,它(tā)可以和具身智能相结合,它可以作为机器人(rén)的大脑去(qù)帮助智能体更好地探(tàn)索(suǒ)物理世界(jiè),所以我也(yě)是非常期待(dài)的。
张鹏:你未来年底(dǐ)之前(qián),有什(shén)么我们值得期(qī)待的你的进展?
姜大昕:我也是期(qī)待(dài)一(yī)方面模型和技术的进步,另外一方面产品能带给用户(hù)更(gèng)多更好的体(tǐ)验,其实阶跃有一款产品叫“跃问”,在(zài)上面,用户(hù)可以体验我们最新的万亿参数的模型,它不光是(shì)理科很强(qiáng),而且它的文学创作(zuò)能力也(yě)很强(qiáng),经常(cháng)给大家带来一些惊喜。同时(shí),跃(yuè)问上(shàng)还(hái)有一个新的功能叫(jiào)“拍照问(wèn)”,我们看到(dào)用户经常拍(pāi)张照片去问食物(wù)的卡路里,去问(wèn)宠 物的心情,问一个(gè)文(wén)物的(de)前(qián)世今(jīn)生,包括Mata眼镜的发布,还有Apple Intelligence,它今年都突出了视觉交互的功能。所以我们在跃问上也有体现,而且我们(men)会努力(lì)一步步(bù)把这个功能做得(dé)越来越好(hǎo)。
未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了