橘子百科-橘子都知道橘子百科-橘子都知道

阶 跃星辰姜大昕、月之暗面杨植 麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

阶 跃星辰姜大昕、月之暗面杨植 麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

【TechWeb】9月20日(rì)消(xiāo)息,在2024云(yún)栖大(dà)会上,极客公园创始人、总裁 张(zhāng)鹏对话阶跃星辰创始人、首席执行官姜(jiāng)大昕(xīn),月之暗面Kimi创始人 杨植麟,清华大学(xué)人工智能研究院 副院长、生(shēng)数(shù)科技首(shǒu)席科学家朱(zhū)军,三人对AGI发展现状和未 来展(zhǎn)望进行了激烈(liè)讨论和前瞻展望。

2024年,AI 发展变慢了吗?过去18个月,AGI的发(fā)展是加速还是减速?如何评价OpenAI 最新发布的 O1 模型?强化学习将改变什么?大模型时代的创业新范式是什(shén)么?

姜大昕(xīn)表示AI 技术发展加速, AI 发展正在经(jīng)历关键的技术范式迭代: OpenAI 的 大模型 o1 探索出了通过强化学习让 AI 具备人类慢思考(可主动反思、纠错的复杂(zá)思考)能力的(de)方式,接(jiē)下来提升强化(huà)学(xué)习模型的泛化能力和加速推进多模态理解生成(chéng)一体化是 AI 技术进 一(yī)步突破的关键。阶跃星(xīng)辰 积极探索新的技术范式,已经在万亿参数模型(xíng)上实现了强化学(xué)习训练的方法论。同时,持续打(dǎ)磨更高性能的底层大模型,提升C端产(chǎn)品体验。据他透露,近期阶跃星辰自研的(de) Step-2 万(wàn)亿参数 MoE 语言大模型已接入(rù)智能助手(shǒu)“跃问”,展现出 更强大的指令跟随、创作和推理能力。

谈到AI产品未来的可能形态,杨植麟表(biǎo)示,以后的(de)AI可能要思考或者调用各种工具,它可能执行分钟级别、小时级别甚至天级别(bié)的任(rèn)务,所以产品形态上可能会更接近一(yī)个人,它更(gèng)接(jiē)近“助理(lǐ)”的概 念,帮你完成异步的任(rèn)务。这里面的产品形态设计可能也会发(fā)生很大的变化,想象空(kōng)间蛮大。

谈(tán)到未来18个可能发生的事(shì)情,朱军表示(shì),预(yù)想(xiǎng)未来18个(gè)月可能比较令人兴奋的一个进展,我希望看到AGI的L3已经基本上(shàng)实现。至(zhì)少在智能(néng)体,比(bǐ)如我们说的世(shì)界模型的创建生成、虚实融合,至少在一(yī)些特定场景下的决(jué)策能力的巨大的提升。其实它(tā)会 利用我们今天讲到(dào)的推理、感知等等。

以下为对话实(shí)录摘(zhāi)录:

主持(chí)人:从ChatGPT的发展,引发了整个世界对于AGI这个事情的理解,发展到现在也18个月了。各位的感受是怎么样的,过去18个(gè)月,AGI的(de)发展是加速还是(shì)减速?

姜(jiāng)大昕:我觉得(dé)过去(qù)18个月速度还(hái)是在加速的,速度还是非常快的。因为(wèi)当我们回顾过(guò)去18个月发生的大大小小的AI事件以(yǐ)后 ,可以从两个维度去看,一个(gè)是数量的角度(dù),一个是质量的(de)角(jiǎo)度。

  从数量的角度来 看,还是(shì)每个月都会有新的模型(xíng)、新的(de)产品、新的(de)应用涌现出来。比如单从模型来看,OpenAI  2月份发了一个sora,我记得(dé)当时(shí)还是过(guò)年的(de)时(shí)候,把大家轰(hōng)炸了(le)一下。然(rán)后5月份(fèn)出了一个GPT-4o,上周又出了o1。OpenAI的老对手Anthropic它有Claude3到Claude3.5的系列,再加上谷(gǔ)歌Gemini系列、Claude系列、LLaMA的系列,等等(děng)。

所(suǒ)以,回顾过去,我们(men)的感觉 还是(shì)GPT-4是一家独大,遥遥领先。到了今年就变成了一个好(hǎo)像(xiàng)是群雄(xióng)并起,你追我赶(gǎn)的局 面,所以(yǐ)感觉各家是(shì)在提速了。

 从 质(zhì)量(liàng)的角度来看,我觉得有(yǒu)三件事情(qíng)可(kě)能给我的(de)印象非常的深刻。

   第一件(jiàn)事情,GPT-4O的发布。因(yīn)为我看它,认为它是在多模融合这样的一个(gè)领域上了一个(gè)新的台阶(jiē)。在GPT4O之前,是(shì)有GPT4V,它是一个视(shì)觉的理解(jiě)模型,有Dalle、Sora,这是视(shì)觉(jué)的生成模型。还有Whisper这是声音模型。所以原本这些孤立的(de)模型到了4O这里都融(róng)合在一起了。

   那为什么(me)融合这件(jiàn)事情非(fēi)常 的重要?是因为我们(men)的物(wù)理世界本身就(jiù)是一个多模的世界,所以多(duō)模融合一定是有助于更好的去为(wèi)我 们的物理世(shì)界建模,去模拟世界这样一件事情。

   第二件事情,特斯拉(lā)发布(bù)的(de)FSD V12。大家知道它是一个端到端的大模型,它把感知信(xìn)号变(biàn)成一个控(kòng)制(zhì)序列。智驾是一(yī)个(gè)非常有代表性的,它(tā)是(shì)一个从数(shù)字世界走向物理世界(jiè)一(yī)个真实的应用场景。所(suǒ)以,我觉得FSDV12它的成(chéng)功,意义不仅在于智驾本(běn)身,这套方法论可以认为是为将来的智能设备(bèi)如何和大模型相结合,更(gèng)好的去探索物理(lǐ)世界指明了(le)一个方向。

第(dì)三(sān)件事情(qíng),上周的O1,我对它的理解,它第一(yī)次证明了语言模型其(qí)实也 可以有人脑的(de)慢思考,就是系(xì)统(tǒng)2的(de)能力。而 我 们觉得(dé)系(xì)统2的能力它是归纳世界所(suǒ)必备的一个前提条件,是一个基(jī)础的能力。所(suǒ)以,我们一直认(rèn)为,AGI的演进(jìn)路线可以分为模拟世(shì)界、探索(suǒ)世界、最后归纳世(shì)界。而过去几个月的时间我们看到GPT4O、FSD V12和O1分别在这三(sān)个阶段或者这三个方向上都取(qǔ)得了(le)非常(cháng)大的突破,而且更(gèng)重要的是为将来的发展也指(zhǐ)明了一个方向。所以(yǐ)无论是从数量还是质量上来说,都是可圈可点。

杨(yáng)植(zhí)麟:我(wǒ)觉得整体也是属于加速(sù)发(fā)展的阶段,核心可以从两个维度来看(AI的发展(zhǎn)),第一个维度是纵向的(de)维度,也就是(shì)说你的智商是一直在(zài)提升的,这个主要现在的反应方式还是你去看文本模型能做到多好。第二个是横向的发展。除了文本模型之外,刚才姜(jiāng)总(zǒng)提到(dào)的,也会有各种不同的模态,这些模态会(huì)做一个横(héng)向的发展,更多的让你这个(gè)模(mó)型具备更多的技能,能够去完成更多的任务(wù),然后(hòu)同(tóng)时跟纵向(xiàng)的智商的发展相结合。

   在这两个维度 上,我觉得都看到了非常大的(de)进展,比如说在纵向的维度上,其(qí)实智商是一直(zhí)在(zài)提升(shēng)的,比如说我们如果(guǒ)去看竞赛数学能力,去年是完全不及格(gé),到今年已经能做到90多分,像代码基(jī)本上也是一 样,能够击败很多专(zhuān)业的编程(chéng)选手,包括因此也产生了很多新(xīn)的(de)应用机(jī)会,比如说像(xiàng)现在比较流行的类似curser这样的,通过自然语言直接去写代码的这样的软件也越来(lái)越(yuè)普及,这是(shì)技术发展的结果。包括我们去看很多具(jù)体的技术指(zhǐ)标,现在的语言模型能支持(chí)的上下文的长度,我们如果去年这(zhè)个时间点去看的话(huà),大部分的模(mó)型(xíng)都只能支持4K-8K的,但是 从今天 去(qù)看你会发现4K-8K已经是非常低(dī)的数了,128K是一 个标配,已经有很多可以支持1M甚至10M的长(zhǎng)文(wén)本的长度。所以,它(tā)这个其实也是后面你的(de)智商(shāng)不断(duàn)提升的一个很重要的(de)基础。

   包括最近的很多进展,它(tā)不光只是说Scaling,Scaling还是会持(chí)续。而(ér)且很多(duō)进展也来自于你(nǐ)的后(hòu)训练算法的优 化,来自于你(nǐ)数据的优化,这些优(yōu)化它的周期是会更(gèng)短的。所(suǒ)以(yǐ),这个周(zhōu)期(qī)更短导致你(nǐ)整体AI发展节奏也(yě)会进一步加快,包括我们最近在数(shù)学上看到的很多进展,其实也是 得益于这些技术的发展。

 横向上当然也产生了(le)很多新的突破(pò),当然(rán)Sora可能是影响(xiǎng)力最大的,在这里面完成了这个视频生成。包括最近有(yǒu)特别多新的产品和技术(shù)出来,现在你已经可以通过一个论文直接生成基本 上你看不出来是真是假的双人的对话。类似这样的不同 模(mó)态之间的转(zhuǎn)化、交互和生成,其(qí)实会变的越来越成熟。所以 ,我觉得整体是在(zài)加速的过程中。

朱军(jūn):AGI这 里面(miàn)大(dà)家最关注的还是(shì)大模型,刚才两位也讲了去年包括今年大(dà)模(mó)型也发生了很多重要的变化。整个的(de)进展我(wǒ)是非常同(tóng)意刚(gāng)才讲到的,在加快。

   另外,我想(xiǎng)补充一(yī)点(diǎn),大家在解新(xīn)的(de)问题,这个速度也(yě)在(zài)加快了,我们说它的Leaning  corve在变(biàn)的更陡。原来(lái)如果你看语(yǔ)言模型,可能从(cóng)2018年最早去做(zuò)的,到去年以及到今年,大家走了五六年的路(lù)。但其实从去年开(kāi)始,上半年大家还是关注语言模型,下半年在(zài)讨论多模态,从多模态理解再到多模态生成(chéng)。我(wǒ)们再(zài)回过(guò)头看的话,比如说图像或者视(shì)频,其实视(shì)频(pín)最明显,从今年的2月份,当时很多人被震(zhèn)惊到了(le),因为 它很多没(méi)有(yǒu)公开,就说怎么去突(tū)破(pò)?有很多(duō)的讨论。但事(shì)实(shí)上我们现在看(kàn)到(dào)这个行业里(lǐ)面(miàn),大概用了(le)半年的时间,已(yǐ)经做到了可以去用,而且达到了一个很好的一些效(xiào)果,在时空一致性(xìng)上。所(suǒ)以大概走了半年的路(lù)。

  所以(yǐ)这里面加(jiā)速的一个最核心的原因,现在大家对这种路(lù)线的认知和(hé)准备上,达到(dào)了比较好的程度。当然我们(men)还有物理的条件,比如说像云(yún)的设(shè)施,计(jì)算的资源的准(zhǔn)备上(shàng),不像ChatGPT当时出来的时候,大家当时更(gèng)多的是一种(zhǒng)不知所措,我觉得很(hěn)多人可能(néng)没准备好去接受这个,所以中间去花(huā)了很长时间(jiān)去(qù)学习、去(qù)掌握这个。当我们掌握了之后再(zài)发现这(zhè)个(gè)进展的话,再去(qù)做新的问题,其实它的速度是越(yuè)来越快的。

当然,这个可能不(bù)同的能力它(tā)再辐射到实际的用户的角度来说,有一(yī)些快慢之(zhī)分,当然也分行业。这个可能在广泛的角度来(lái)说,大(dà)家可(kě)能没感知到。但是从技术来说,其实这个进展我感觉是曲线越来越陡,而且(qiě)可能对后边我们要预测未来的话(huà),包括 向更高阶的AGI发展(zhǎn),我是比(bǐ)较乐观的,可(kě)能会看到比之前 更快的速度去实现了。

主持人(rén):最(zuì)近(jìn)OpenAI刚刚出(chū)的 O1的新(xīn)的模型(xíng),也是在专(zhuān)业人群(qún)里形成了非常多的影响,现在还在很丰 富的讨论。怎么评价O1进展的意(yì)义(yì)?

 姜大昕:确(què)实我(wǒ)看到一些非共识,有些人觉得意义很(hěn)大,有些人觉得也(yě)不过如此。我觉得大家如果去试用O1的话,可能第一印象是它的推理能力确实非常惊艳,我(wǒ)们(men)自己试了很多Query,觉得推理能力确实(shí)上了一个(gè)很大的台(tái)阶 。

 然后我(wǒ)们去思考(kǎo)它背后的意义究竟是(shì)什么,我能想到的有两(liǎng)点:1.它第(dì)一次证明了Large language model,就是语言模型,它可以有人(rén)脑的慢思考的能力。它和以前GPT的范式,或(huò)者(zhě)GPT的训练,它叫,Predict next Token,它只 要这样训练了,就注 定了它只有system 1的能(néng)力。而O1是用了一个强化学习(xí)的训练框架(jià),所以带 来了系统2的能力。

   系统1的体现(xiàn),它是一个(gè)直线性思维,虽然我们看到GPT4有时候可以把一个复杂的问题拆解成很多步,然(rán)后分步去解决,但(dàn)它(tā)还是直线性的。系 统1和系统(tǒng)2最大(dà)的区别(bié)在于(yú),系统2能够去探索不同的路径,它(tā)能够自我去反思、自我去纠(jiū)错,然后(hòu)不断的试错,直到找到一个正确的途径(jìng),这是系(xì)统(tǒng)2的特点 。这次O1,它是把以前的模仿学习和强化学习结合起来了,使得一个模型同时有了人脑系统1和系统2的能(néng)力。所以我觉得从这个角度来看,它的意义(yì)是非(fēi)常大的。

  第二,它带来了一个Scaling Law的新方(fāng)向,我(wǒ)理解O1试图回答的一个问题,就(jiù)是(shì)说RL(强化学习)究竟(jìng)怎么去泛化。因为强(qiáng)化学习它不是第一个,DeepMind一直(zhí)走的是强化(huà)学习的路线(xiàn),从AlphaGo到AlphaFold到(dào)AlphaGeometry,其实它在强化学习上是非常厉(lì)害的。但以前强化学(xué)习的(de)场景都是会为特定场景去设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。所以(yǐ)这(zhè)次O1的出现,它是在RL强化学习通用性和泛(fàn)化性上了一个大的(de)台阶(jiē),而且它scale到了(le)一个(gè)很大的规模,所以(yǐ)我把它看成scaling带来新的技术范式,我(wǒ)们 不妨称之(zhī)为RL Scaling。而且我 们(men)看到有意(yì)思的一点,O1并没有到(dào)很成熟的阶段,它还是一个开端,但是这个恰恰让人觉得非(fēi)常(cháng)的兴奋,这就等于OpenAI跟我们说,我找到了一条(tiáo)上限很高的道路,而且你仔细去(qù)思考它背后(hòu)的方法,你(nǐ)会相信这条(tiáo)路实际(jì)上是能走得下去。所以O1从能力上来讲,我觉得它展示了Language model可以有系统2的能力,从技术上(shàng)来说它带来新的(de)scaling范式,所以它的意(yì)义还是非常大的。

朱军:我的(de)看法,它是(shì)代表着一(yī)个显著的质变。我们也(yě)对AGI大概做(zuò)了一(yī)些分级,学(xué)术界,包(bāo)括产(chǎn)业界大家(jiā)有L1-L5的分级。其实L1的话相当于(yú)聊天 机(jī)器人,就是(shì)像ChatGPT等,之前大家做(zuò)了(le)很多对话的。L2叫推理者,实际上可以做复(fù)杂问题深度思考的推理。L3叫智能体,回应吴总讲的(de)“数字世界”走向“物理世界”,我要去(qù)改(gǎi)变的,我要去交互的。L4是(shì)创新者,它要去发现、创造一些新的东西,或者发现一(yī)些新的知识。L5是组织者,它可(kě)以去(qù)协同,或者某(mǒu)种组(zǔ)织(zhī)方式更高效来(lái)运转,这是大家对于AGI L1-L5的分级,当然每一级也有narrow和general的区(qū)分,在某些Task上展示出来。比如O1在(zài)L2的narrow场(chǎng)景下,在一些特定任务下已经实现了人类达到很高阶的(de)智能(néng)水平。我觉得从(cóng)分级角度来看,它确实代表着整个行业巨大的(de)进步。

   刚才技术上姜总也讲了,它(tā)将过去强化学习(xí)或者其他一些技术,其实(shí)在(zài)研究(jiū)里已经做了(le)很多东西,但实际上它在大规模基座模型上能够做出来的效果,这还是从(cóng)工程上,或者从实(shí)现上来说(shuō)对(duì)行业很大(dà)的触动。当(dāng)然它也会错发(fā)或者激发出来很多未来的探索,或者实际的(de)研发,可(kě)能会走向从narrow到general的跃迁。刚(gāng)才讲到速度,我相信它会很快,因(yīn)为大家已经有很(hěn)多(duō)准备了,我也期 待这个(gè)领域里更多将L2做得更好(hǎo),甚至更高阶的能实现。

      杨植麟:我觉得它的意义(yì)确实是很大,主要意义在于它提升了AI的上(shàng)限。AI的(de)上限(xiàn)是说 ,你现在去提升5%、10%的(de)生产力,还是说10倍的GDP,我觉得这里最(zuì)重要的问题就是(shì)你能不能通过强化学习进一步scaling,这(zhè)是完全提(tí)升了AI上限(xiàn)的东西。我们如果看(kàn)AI历(lì)史上七八十年的发展,唯一有效的就是scaling,唯一有(yǒu)效的就是加更多的算力。但在O1提出之前,可能也有很多人在研究强化学习,但都没有一个非常(cháng)确(què)切的答案,强化学习如果(guǒ)和大语言模型,或者和training processin这(zhè)些 东西整合在一起(qǐ),它能否持续(xù)提(tí)升。比(bǐ)如(rú)GPT4这一代模型的提升,更多是 确定性的提升,我在一样范式下(xià)把规模变(biàn)得更大,它肯定是确定性的提升。但是(shì)我觉得O1的提(tí)升并不是一个完全(quán)确定性的,这样的提升。

   所以在(zài)之(zhī)前大家(jiā)可能(néng)会担心现在互联网上大部分优质数据都已经被使用完了,然后你可能继续使用(yòng)这个(gè)数据也没有更多数(shù)据可以挖掘,所以你原来的范式可能会遇到问(wèn)题。但AI有效了,你又需要(yào)进一步scaling,那你这个scaling从哪里来,我觉得(dé)很大程度上解(jiě)决了这个(gè)问题,或者说至少证明了它初步可行。初步可行的情况下,可能我们会(huì)有越(yuè)来越多人投入(rù)去做这个事情,最终你要做到10倍GDP的(de)最终效果,它完(wán)全有可能,我(wǒ)觉得是(shì)一个很重要的开端。

   我觉得对很 多产业格(gé)局上,或者对(duì)于创业公司新机会来说也会发生一些(xiē)变化。比如我觉得这里很关键的一个点,你的训练和推理算(suàn)力占比 是会发生(shēng)很大的变化,这个变化我不是说 训练的算力会(huì)下降,训练的算力还会持续提升。与此同时,推理的算力提(tí)升会(huì)更(gèng)快,那这个比例的变化本质上会产生很多新(xīn)的机(jī)会,可能(néng)这里很多新的创业(yè)公司的机会。一方面(miàn),如果你达到一定的算力门槛,它可以在这里做很(hěn)多(duō)算法的基础创新,那你(nǐ)可以在基础的模型上甚至(zhì)取得突破,所(suǒ)以我觉得(dé)这(zhè)个很重要。

对于算力相对小一点的公司(sī),它也可以通过后训练(liàn)的方式,在一些领域上做(zuò)到一些(xiē)效果,这里也会产(chǎn)生更多的(de)产品和技术机会,所以我觉得(dé)整体也是(shì)打开了(le)创业相关的想象空间 。

主持人:这一波AI新的变化,接(jiē)下(xià)来会对AI相关的产品带来什么样的连锁反(fǎn)应(yīng),这个变化如何发生?

杨植麟:这是很好的问题,我们(men)现在还是处于产业发展的早期。产业发展的(de)早期有一个特点,还是技术(shù)驱动产品会更多(duō),所以很多时候你的(de)产品(pǐn)会去看当前的技术是怎么发展,然后把它最大化的价值提取出(chū)来,所以这个问题首先非常好,可能(néng)我(wǒ)们根(gēn)据这个新的技(jì)术进展,再返过来推一下现在产品应该做什么变(biàn)化。

   现(xiàn)在(zài)的技术发展(zhǎn)有几个点:

   一个,我(wǒ)觉得这里面会有很多(duō)探索新(xīn)的PMF(product market fit)的机会。我觉得PMF指的是两个东西的(de)平衡:一方面(miàn)是由(yóu)于你需要做这 种(zhǒng)系统2的思考,导致(zhì)你的延时增加。对用户来说,延时增(zēng)加是一个负向的体验,因为所有用户(hù)都希望我尽快(kuài)能拿到结果;第二个点(diǎn),它确(què)实(shí)能提供(gōng)更好的输出,能拿到更好(hǎo)的结果(guǒ),甚至能完成一些(xiē)跟更复杂的任务。等于说新的PMF产生的过程或(huò)者探(tàn)索的过程,其实是要在在延时增长的(de)用户体验下降和最后结果产生质量更高的用户价值的上升之间找(zhǎo)到一个平衡点。所以你要让这个增量的(de)价值(zhí)是大(dà)于体验的损失,我觉得这个很重要。所以在这里面更高价值的场景,特(tè)别是生产力的场(chǎng)景,我觉得会率先有一些(xiē)东西出来。因(yīn)为如果你是一个娱乐场景(jǐng),大(dà)概率(lǜ)你可能很难忍受(shòu)这种(zhǒng)延时 上的增加。所以,我(wǒ)觉得这是比较重要的一点(diǎn)

   产(chǎn)品形态上,我觉得也会发生一些变化。因为你引入这种思考的范式,所以现(xiàn)在同步及时的类似聊天的(de)产品形态一定会发生变(biàn)化(huà)。因为以后的AI,可能它(tā)不光是(shì)现在思(sī)考个20秒、40秒,它已经可能要思考或者调用(yòng)各(gè)种工具,它可能 执 行分钟级别、小时级别甚至(zhì)天级别的任务 ,所(suǒ)以你(nǐ)的产品形态(tài)上可能会更接近一个人,它更接近“助理”的(de)概念(niàn),帮(bāng)你完成异步的任务。这里面的产品形态设计,我觉得可能也会发(fā)生很大的变(biàn)化。所以这里(lǐ)面,我觉(jué)得新的(de)想象空间蛮大的。

 朱军:我(wǒ)觉得大模型或者大规模预训练的技(jì)术代表着整个范(fàn)式的变化,前面也聊到很多(duō),不光是(shì)语言,到多模态,到具身、空间智能,中间(jiān)还是想我怎么去让智能体能够有交互,能够在这个过程中来学习。从智能的角度来看,包括(kuò)从(cóng)AGI发展上,它是一(yī)个必然,因为决策、交互实际上是我们说的智能里面非(fēi)常核心的能力的(de)体(tǐ)现。我(wǒ)们(men)每时每(měi)刻其实都在做(zuò)决策,我(wǒ)们(men)面对的是一个未知的开放(fàng)环境,所以对于智(zhì)能来(lái)说,它的发展路径上,在整个规划(huà)里面大家也是朝着(zhe)这个方 向走。

   现(xiàn)在所 有这些进展,包括刚刚讨论很多的O1,包 括做(zuò)视频生成,或者3D,这(zhè)些东西 大家最后要指(zhǐ)向的有两个方向:

  一个是给消费者看到的这些数字内容,就是说看(kàn)上去很好(hǎo)看、很(hěn)自然(rán),能够讲故事(shì),能够让大家参与讲(jiǎng)故事、能够交互。这肯定是一个很重要的方向,在数字内容上。

   另外一个(gè)方向,指向实(shí)体、指向物理世界。

现在可能最(zuì)好的一个结合点就(jiù)是和机器人来结(jié)合在一起。其实现在已经有(yǒu)好(hǎo)多(duō)例子在展示 出来,我们也看(kàn)到很(hěn)好的一(yī)些进展,比如用了预训练的范式,如何(hé)让机器人的能力具有通用性;比(bǐ)如我们自己实(shí)验室做多的例子,像四(sì)足机器(qì)人,过去大家在不(bù)同场地(dì)上(shàng),你要让它跑(阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”pǎo)起来都需要用很多(duō)的人工调参。但现在你在(zài)一个仿(fǎng)真环境里面(miàn),或者用一(yī)些AI的方式(shì)来生成一些合成(chéng)数据,让它在里面大规模地训练(liàn),训练出(chū)来(lái)的策略可以灌到机器人上(shàng),它相当于换了一副大脑,可(kě)以让它的四肢更好地协同起来,同样一(yī)套策略可以(yǐ)做各种场地的(de)适(shì)应。其实这还是一个初步的例(lì)子,现在大家也(yě)在关注更复杂(zá)的控制决(jué)策,就像空间智能、具身智能。

   就像刚才讲到智能体是AGI的(de)L3,所以(yǐ)现在用到L1、L2的(de)进展之后,后面肯定会提(tí)升到(dào)L3,让机器人更好地做(zuò)它的推理规划,然后更好更高效地和环境做交互,更好地完成我们的复杂任务。因(yīn)为(wèi)现在很多时候任务相对(duì)来说分(fēn)散,给它定(dìng)义成一个简化的。未来,我们很快可以(yǐ)看到它可以接(jiē)受复杂的指令、完成复(fù)杂的任务,通过它内嵌的思维链或者过程的学习方式,能够完成复杂任务。所以到那个时候,智能的能力又有一个(gè)很巨大的提升。

主持人:虽然意料未来都很难,至少心里会(huì)有一个期待,比如在下一个18个月里,我们希望(wàng)看到什么样的进展,在AGI的(de)领域里(lǐ)?

朱(zhū)军:因为现(xiàn)在整个是一(yī)个(gè)加速,其实很多时候我们预测通常会过于保守。如果(guǒ)回到你的问题,我预想未来18个月可能比较令人兴奋的一个进(jìn)展,我希望看到AGI的L3已经(jīng)基本上实现。至少(shǎo)在智(zhì)能(néng)体,比如我们说的(de)世界模型的创建生成、虚 实融合,至少在一些特定(dìng)场(chǎng)景下的(de)决策(cè)能力的巨大的提升。其实它会利用我们今(jīn)天讲到的推理、感知等等。

因为(wèi)我前一段时间(jiān)领了一个任务,就(jiù)是对L4做专门的分析(xī),就(jiù)是到底我们缺什么?做了L4的(de)。其实最后调研或者是(shì)分析下来,你会发现如(rú)果我(wǒ)们要做科学发现或者做创新,它需要的那些能力,可能(néng)目前是(shì)散落在各个角落里面,当然现在可能还缺一个系统怎么把这些东西集成在一起,给它做work。所以我(wǒ)觉得如(rú)果更激(jī)进(jìn)一点,我(wǒ)甚至觉得未来18个月(yuè)可能在L4上也会有显著的进展。当然这(zhè)里面我讲的是严肃的科学发现,其实L4还有(yǒu)一些创(chuàng)意的表达上,目(mù)前我们在某种意义上已经达到了,比如说艺术创(chuàng)造、图生视频,一定程度上它已经帮大家放大你(nǐ)的想象,或者让你的想象可以具象(xiàng)化。所以,我对整个于是还是比较乐观的,我觉得(dé)至少L3或者未(wèi)来L4有一些苗子了。

到今年年底,希望将我们本来做的视频模型能够以更加(jiā)高效、更可控的方式(shì)提(tí)供给大家。

   我解释一下(xià)高效和可(kě)控(kòng)。可控,比如你(nǐ)想表(biǎo)达(dá)一个故事,不是简 单(dān)地将一段(duàn)话或者一个图片给它(tā)动起来,我们是希望你可以连续地讲,而且它不光是人的一致(zhì)性,还包括物体等各种主题的一致性,还(hái)包括(kuò)交互性;高效,它一方面解决对算力成本(běn)的考量,因为你如果想要服务很 多人,让大家用的话,首先你成本要降下来,阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”不然这个本身就是烧钱,一直赔(péi)钱。另(lìng)外(wài)一个更重要的(de),还是从体(tǐ)验上。就使用者来说,因为他想表达自己的创意,他可能需要多 次和系统来交互(hù),一方面是验证,另外一方面是启发,所以这个过程也需要你的模型系统能够比较高(gāo)效,比如说终极(jí)目标达到实时,能(néng)够让大家快速尝试。等到这个阶段,我相信(xìn)大家的用 户体验,包括用户量都会有一个巨大的提升,这是(shì)我们今年想重点突破的(de)。当然长远的 话,可能明年18个月(yuè)会(huì)走向实体的虚实(shí)融(róng)合的场景了。

   杨植鳞:我觉得接下来(lái)最重要的,可能是开放性的强化(huà)学习(xí),比如说你在产品(pǐn)上跟(gēn)用户交互,在一个真实的环境里面完成(chéng)任务 ,然后(hòu)自己去进化。当然,我觉得O1一定程(chéng)度上说明这(zhè)个方向有比之前更强的确定性,我觉得(dé)这个会是一个重要的里程碑,也是(shì)AGI路上现在仅甚唯一的一个重要问题了(le)。所以,我觉得这(zhè)个会很关键。

   张鹏:对,18个月已经是(shì)很长了,如果(guǒ)看看看过去18个月走的路。你未来3个月,有什(shén)么可以(yǐ)透 露的吗?

   杨植鳞(lín):我们还是希望能够在产品(pǐn)和技术上持(chí)续地创新,至少可能在(zài)一两个重要领(lǐng)域能够做到世界最(zuì)好,但是有(yǒu)新的进展会尽快跟(gēn)大家分享(xiǎng)。

   姜大昕 :第一,我也很期待(dài)强(qiáng)化学(xué)习能(néng)够进(jìn)一步 泛化。另外一个方向其实我(wǒ)也很期待,应该说期待了很久就是在视觉(jué)领域(yù)的理解和生(shēng)成一体化的事情。因为(wèi)在文字(zì)领域,GPT已经做到了理解生成(chéng)一体(tǐ)化,但遗憾的(de)是在视觉(jué)领域,这个问题当然不是遗憾,它非常(cháng)难。所以在目(mù)前为止,我(wǒ)们看(kàn)到的视觉的理解和生(shēng)成,这两个模(mó)型是分开的。即使像刚才(cái)说的多模融合,如果大家仔细看GPT4,它其他模态都解(jiě)决了,它唯(wéi)独(dú)不能生成视频,所以(yǐ)这是一个悬而未决的事情。

  它为什么很重要呢(ne)?如果我们解决了视频理解(jiě)生成一体化,我(wǒ)们(men)就可以彻底建(jiàn)立(lì)一个(gè)多模的世(shì)界模型,有一个(gè)多模(mó)的世界模型以后(hòu),可以帮助我们真正产生非常长 的视频,也(yě)就是 说解决(jué)Sora(音 译)目前的技(jì)术缺陷(xiàn)。还有一个,它可以(yǐ)和(hé)具身智能相结合,它可以作(zuò)为机器人的(de)大(dà)脑去帮助智(zhì)能体(tǐ)更好地探(tàn)索物(wù)理世界,所以我也是非常期待的。

   张鹏:你(nǐ)未来年(nián)底之(zhī)前(qián),有什么我(wǒ)们值得期待的(de)你(nǐ)的进展(zhǎn)?

   姜大昕:我(wǒ)也(yě)是期待一方面模型和技术的进(jìn)步,另外一方面产品(pǐn)能带(dài)给用(yòng)户(hù)更(gèng)多更(gèng)好的体验(yàn),其实阶跃有一款产品叫“跃问”,在(zài)上面,用户可(kě)以体验我们最(zuì)新的万 亿参数的模型,它不光是理(lǐ)科很强,而且它的文学创(chuàng)作能力(lì)也 很强,经常给大家带来一些惊喜。同(tóng)时,跃问上(shàng)还(hái)有一个新的功能叫“拍照问”,我(wǒ)们看到用户经常拍张照片去 问食物的卡路里(lǐ),去问宠物的心情,问一个文物的前世今(jīn)生,包(bāo)括 Mata眼镜的发布,还(hái)有Apple Intelligence,它今年(nián)都(dōu)突出(chū)了视(shì)觉(jué)交互的功能(néng)。所以(yǐ)我(wǒ)们在跃 问上也有体现,而且我们会努力一步步把这个功能(néng)做得越来越好。

未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

评论

5+2=