阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月20日(rì)消息,在2024云栖大会上,极客公园创始人、总裁 张鹏对话阶跃星辰创始人、首(shǒu)席执行(xíng)官姜大昕(xīn),月之暗面Kimi创始人 杨植 麟,清华大学人工智能研究院副(fù)院长、生数科技首席科学家朱军,三人对AGI发展现状(zhuàng)和未来(lái)展望(wàng)进行了(le)激烈讨论和前瞻展(zhǎn)望。
2024年,AI 发展(zhǎn)变慢了吗?过去(qù)18个月,AGI的发展(zhǎn)是(shì)加速还是减速(sù)?如何评价OpenAI 最新发布的 O1 模(mó)型?强化学习(xí)将改变什么?大模型时代的创业新范式是什么?
姜大昕表示AI 技术发展加速, AI 发展正在经历关键的技术范式迭代: OpenAI 的大(dà)模型 o1 探索出了(le)通过强化(huà)学习(xí)让 AI 具备人类慢思考(可主动反思(sī)、纠(jiū)错的复杂思考)能(néng)力的方式,接下来提升强化学(xué)习模型的(de)泛化能力和加速推进多模态理解生成一体化是 AI 技术进一(yī)步突破的(de)关键。阶跃星辰积极探索新的技术范式,已经(jīng)在万亿参数模型上实现了强化学(xué)习训练的方法论。同时,持续打(dǎ)磨更高性(xìng)能(néng)的底层大模型,提升C端产品体验。据他透露(lù),近期阶跃(yuè)星辰自研的 Step-2 万亿参数 MoE 语言大模型已接入智能助手“跃问(wèn)”,展现出更强(qiáng)大的指令跟随、创作 和(hé)推(tuī)理能(néng)力。
谈到AI产品未来的(de)可能(néng)形态,杨植麟表示 ,以后的AI可能要思考或者调用各(gè)种工具,它可能 执行分钟级(jí)别、小(xiǎo)时级别甚至天级别的任务,所以产(chǎn)品形态上可能会更(gèng)接近一个(gè)人,它更接近“助(zhù)理”的概念,帮你(nǐ)完成异(yì)步的任务。这里面(miàn)的产品形态设计可能也会发(fā)生很大的变化,想象空间蛮(mán)大 。
谈到未来18个(gè)可能发生的事情,朱军表示,预想未来18个月可能比较令(lìng)人兴奋的一个进展,我希望看到AGI的L3已经基本上实现。至少在智能体,比如 我们说的世(shì)界模型的创建生成、虚实融合,至少在一些(xiē)特(tè)定场景下的决策能力的巨大的提升。其实它会利用我们(men)今天讲到的推理、感知(zhī)等等。
以下为(wèi)对话实录摘录:
主持人:从ChatGPT的发展,引发了整个世界对于AGI这(zhè)个事情的理解,发展到现在也18个(gè)月了。各位的(de)感受是怎么样的,过(guò)去18个(gè)月,AGI的发展是加速还是减速?
姜大昕:我觉得(dé)过(guò)去18个月速度还是在加速(sù)的,速度还是非常快的。因为当(dāng)我们回顾过去18个月发生的大大小小的(de)AI事件以后,可以从两个维(wéi)度去看,一个是数量的角度,一个(gè)是质量的角度。
从数量的角度来看,还(hái)是(shì)每个月都会有新的模型、新(xīn)的产品、新的应用涌现出来(lái)。比如单从模(mó)型来看,OpenAI 2月份发了(le)一个sora,我记得当时还是过年(nián)的时候,把大家(jiā)轰炸了一下。然后5月份出了(le)一个GPT-4o,上周又出(chū)了(le)o1。OpenAI的老对(duì)手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列(liè)、Claude系列、LLaMA的系列,等等。
所(suǒ)以,回顾过去,我们的感(gǎn)觉还是GPT-4是一家(jiā)独大,遥遥领先。到了今(jīn)年就变成了一个好像是(shì)群雄并起,你追我赶的局面,所以感觉各家是在提(tí)速了。
从质量的角度来看 ,我觉得有三件(jiàn)事情可能给我的(de)印象非常(cháng)的深刻。
第一件事情,GPT-4O的发布。因(yīn)为我看它,认为它是在多模融合这 样的一个(gè)领域(yù)上(shàng)了一个新的台阶。在GPT4O之前,是有GPT4V,它是一个视觉 的(de)理解模型,有Dalle、Sora,这(zhè)是视觉的生(shēng)成模型。还(hái)有Whisper这是声音模型。所以原本这些(xiē)孤立的模型(xíng)到了(le)4O这里(lǐ)都融(róng)合在一起了(le)。
那为什么融合这件事情非常的重(zhòng)要?是因为我们的物理世界本身(shēn)就是一(yī)个多模的世界,所(suǒ)以(yǐ)多模融合(hé)一定是有助于更好(hǎo)的去(qù)为我们的物理世界建模,去模拟世界这样一件事情(qíng)。
第二件事情,特斯拉发 布的FSD V12。大家知道它是一(yī)个端到端的大模(mó)型,它把感知信号变成一个控制序(xù)列。智驾是一个非常有代表性(xìng)的,它是一个从数字世(shì)界走向物理世界一个真实的应(yīng)用(yòng)场景。所以,我觉得(dé)FSDV12它的成功,意义不仅在于智驾本身,这套方法论可以认(rèn)为是为将来(lái)的智能设备如何和(hé)大模型相结合,更好(hǎo)的去探索物理世界指(zhǐ)明 了(le)一个(gè)方向。
第三件事情(qíng),上(shàng)周的O1,我对它(tā)的理解,它第一(yī)次证明了语言模型其实也可以有人脑的慢思(sī)考,就是系统2的能力。而我们觉(jué)得系统(tǒng)2的能力它是归纳世界所(suǒ)必(bì)备(bèi)的一个(gè)前提(tí)条件,是一个基础的能力。所以,我(wǒ)们一直认为,AGI的演进路(lù)线(xiàn)可以分为模拟世界、探索世界、最后(hòu)归纳世界(jiè)。而过去几个月的时间我(wǒ)们看到GPT4O、FSD V12和(hé)O1分别在这三个阶(jiē)段或者这三个方(fāng)向上都取得了非常大的突破,而且(qiě)更重要的是(shì)为(wèi)将来的发展也指明了一个方向。所以无论是从数量还是质量上来说,都是可圈可点。
杨植麟:我(wǒ)觉得整(zhěng)体也是属于加速发展(zhǎn)的阶段,核心可以从两个维度来看(kàn)(AI的发展),第一个维度是纵向的维度,也就是(shì)说你(nǐ)的智(zhì)商是一直在提升的,这个主要现在的(de)反应方式还是你去看文本模型能做到多好。第(dì)二个是横向的发展。除了文本模型之外,刚才姜总提(tí)到的(de),也会有各种不同的模态,这些模态 会做一个横向的发展(zhǎn),更多的(de)让你(nǐ)这个模型具备更(gèng)多的(de)技能,能够(gòu)去(qù)完成更(gèng)多的任务,然后同(tóng)时跟纵向的智商的发展相结(jié)合。
在这两个维(wéi)度上,我觉(jué)得都看到了非(fēi)常大的进展,比如说在纵向的维度上,其实智商是一直在提升的,比如说我们如果去看竞赛数学(xué)能力,去年(nián)是完全不及格,到今年已经能做到90多分(fēn),像代码基本上也是一样,能够击败(bài)很多专业的(de)编程(chéng)选手,包括因此也产(chǎn)生了很多新的应用机会,比如(rú)说像现在比较流(liú)行的类似(shì)curser这样的,通过自 然语言直(zhí)接去写代(dài)码的这样的软件也越(yuè)来(lái)越普及,这是技(jì)术发展的结果。包括我(wǒ)们去看很多具体的技术指标,现在的语言模型能支持的上(shàng)下文的长度,我们如(rú)果去年这个(gè)时间点去看的话,大部分的模(mó)型都只能支持4K-8K的,但是从今天去看你会发 现4K-8K已经是非常低(dī)的数了,128K是一个标配,已经有很多(duō)可以支持1M甚至10M的(de)长文本(běn)的长度。所以,它这个其实也(yě)是后面你(nǐ)的智商不断提升(shēng)的一个很重(zhòng)要的基础。
包括最近的很多进展,它不光只是说Scaling,Scaling还是会持(chí)续。而且很多(duō)进展也来(lái)自于你(nǐ)的后训(xùn)练算法的优化,来自(zì)于(yú)你数据的优化,这些优化它(tā)的周期是会更短(duǎn)的。所以,这个周期(qī)更短(duǎn)导致你整(zhěng)体AI发展节奏也会进一步加快(kuài),包括我们最近在数学(xué)上(shàng)看到的很多(duō)进展(zhǎn),其实也是(shì)得益于 这些技术的发展。
横向上当然也产生了很(hěn)多新的突破,当然Sora可能(néng)是影响力最大的(de),在这里面完(wán)成了这个视频生成。包括(kuò)最近有特别多(duō)新的产品和技术(shù)出来,现(xiàn)在你已经可以通过一个论文直(zhí)接生成(chéng)基本上你看不出(chū)来是真是假的双人的对话。类似(shì)这样的不同模态(tài)之间的转化(huà)、交互和生成,其(qí)实会变的越来越成熟。所以,我觉得整体是在加速的过程中。
朱军:AGI这里面大家最关注的还是大模型,刚才两位(wèi)也(yě)讲了去年包括今年大模型也发生了很多重要的变化。整个的进展我(wǒ)是非常同意刚才讲到的,在加快。
另外,我想补充一点,大家(jiā)在解新的问题,这个速度也在加(jiā)快了,我们说它的Leaning corve在变的更陡(dǒu)。原来如果(guǒ)你看语言模型,可能从(cóng)2018年最(zuì)早去做的,到(dào)去年以及到今(jīn)年,大家走了五六年的路。但其实从去年开始,上半年大家还是关注语言模型,下半年在讨(tǎo)论多模态(tài),从多模态理解再(zài)到多模态生成。我们再回过头看的话,比(bǐ)如说图像或者(zhě)视频,其实视频最明(míng)显,从今年的2月份,当时很多人被(bèi)震惊到了,因为它很多(duō)没有公开,就说怎么去突破?有很(hěn)多(duō)的讨论。但事实上我(wǒ)们现在看到这个(gè)行业里面(miàn),大概用了半年的时间,已经做到了可以去用,而且达到了一(yī)个很好的一些效果,在时空一致性上。所以大概走了半年的路。
所以这(zhè)里(lǐ)面加(jiā)速的(de)一个最核心(xīn)的原因,现在大家对这种路线的 认知(zhī)和准备上,达到了比较好的程度。当然我们(men)还有物理的条件,比如说像云的设施,计算的资源的准备上,不(bù)像ChatGPT当时出(chū)来的时候,大家当时更多的是一种不知所措 ,我觉得很多人可能没准备好去接受(shòu)这个(gè),所以(yǐ)中间去花(huā)了很长时间去学习(xí)、去掌握这个。当我们掌握了之后再发现这个进展的话,再去做新的(de)问题,其实它的速度是越(yuè)来越(yuè)快的。
当然,这个 可能不(bù)同的能(néng)力它再辐 射到实际的用户的角度来(lái)说,有一些快慢之分,当然也分行业。这个(gè)可能(néng)在广泛的角(jiǎo)度来说,大(dà)家可能没感知到。但是从技术来说,其(qí)实这个进展我感觉是曲线(xiàn)越来越陡(dǒu),而且可能(néng)对后边(biān)我(wǒ)们要预测未来的话,包括向更(gèng)高阶的AGI发展,我是比较乐观的,可能会看到比之前(qián)更快(kuài)的速度去实现了。
主持人:最近(jìn)OpenAI刚刚出(chū)的O1的新的模型,也是(shì)在(zài)专业人群里形成了非常多的影响,现在还在很丰富(fù)的讨论。怎么评价O1进展的意义?
姜大昕(xīn):确实(shí)我看到一些非(fēi)共(gòng)识,有(yǒu)些人觉得意义很大,有些人觉得也不过(guò)如此(cǐ)。我觉得大家(jiā)如果去试用O1的话,可能第(dì)一印象是它的推理(lǐ)能力确(què)实非常惊艳,我们自己试了很多Query,觉得推理(lǐ)能(néng)力确实上了一个很大的台阶(jiē)。
然后我们去思(sī)考它背后的意义究竟是什么,我能(néng)想到的有(yǒu)两点:1.它第一次(cì)证(zhèng)明了Large language model,就是语言模(mó)型,它可以有人脑的慢思(sī)考的能力。它(tā)和(hé)以前(qián)GPT的范式,或者GPT的训练,它叫,Predict next Token,它(tā)只要这样训练了,就注定了它只有system 1的能力。而O1是用了一个强化学习的训(xùn)练框架,所以带(dài)来了系统2的能(néng)力。
系统1的体现,它是一个直(zhí)线性思维,虽(suī)然我们(men)看到GPT4有时候可以把一个复杂的问题拆解成很多步,然后分步去解决,但它还是直线性的(de)。系统1和(hé)系 统2最(zuì)大的区别(bié)在于(yú),系统2能够去探(tàn)索不同的路径 ,它能够自我(wǒ)去反思(sī)、自我去纠错,然后不断的试错,直到找到一个正确的途径,这是系统2的特点(diǎn)。这次O1,它是把以前的模仿学习和强化学习结合(hé)起来了,使得(dé)一个模型同时有了人脑系(xì)统1和系(xì)统(tǒng)2的能力(lì)。所以我(wǒ)觉得从(cóng)这个角度来看,它(tā)的意义是非常(cháng)大的。
第二,它带来了一个Scaling Law的(de)新方向,我理解(jiě)O1试图回答的一个(gè)问题,就是说RL(强化学习)究竟怎(zěn)么去(qù)泛化。因(yīn)为强化学习它不是第一个,DeepMind一直走的是强化学习的路线,从(cóng)AlphaGo到AlphaFold到AlphaGeometry,其实(shí)它在强化学习(xí)上是(shì)非(fēi)常厉害的。但以前强化学习的场景(jǐng)都是会为(wèi)特定场景去设计(jì),AlphaGo只能下围棋,AlphaFold只(zhǐ)能去(qù)预测蛋白质的结构。所以这次O1的出现,它(tā)是在RL强化学习(xí)通(tōng)用性和泛(fàn)化性上了一个大的台阶,而(ér)且(qiě)它scale到了一(yī)个很大的规模,所以我把它(tā)看成阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”scaling带来新的技术(shù)范(fàn)式,我(wǒ)们不(bù)妨称之为(wèi)RL Scaling。而且我们看(kàn)到(dào)有意思的一点,O1并没有到很成熟的阶段,它还是一个开端,但是这个恰恰让人觉得(dé)非常的兴奋,这就等于OpenAI跟我们说,我找到了一(yī)条上限很高的道路,而且你(nǐ)仔细去思(sī)考它背后的方法,你会相信这条路实际上是能走得下去(qù)。所以O1从能力上来讲,我觉得它展示(shì)了Language model可以(yǐ)有(yǒu)系统2的能力,从技术上来说(shuō)它带来新的scaling范式(shì),所以它的意义还是非常大的。
阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”le="font-L">朱军:我的看法(fǎ),它是代表着一个显著的质变。我们也对AGI大概做了一些分级,学术(shù)界,包括产(chǎn)业界大家有L1-L5的分级。其(qí)实L1的话相当于聊天机器人,就是像ChatGPT等(děng),之前(qián)大家做了很多对话的。L2叫推(tuī)理者,实际上(shàng)可以做复杂问(wèn)题深度思考的推理(lǐ)。L3叫智能体(tǐ),回应吴总讲的“数字世界”走向“物理世界”,我要去改变的,我要(yào)去交互的(de)。L4是创新者,它要去发现(xiàn)、创造(zào)一些新的(de)东西,或(huò)者发现一些新的(de)知 识。L5是组织者,它可(kě)以去协同(tóng),或者某种组织方式更(gèng)高(gāo)效来运转(zhuǎn),这是大家对于AGI L1-L5的分(fēn)级,当然每一级(jí)也有narrow和general的区(qū)分(fēn),在(zài)某些 Task上展示出来。比如O1在L2的narrow场景下,在一些特定任务下已经实现了人类达(dá)到(dào)很(hěn)高阶的智能水平。我觉得从分(fēn)级角度(dù)来看,它确(què)实(shí)代表着整个行业巨大的进步(bù)。
刚才技(jì)术上姜总也讲了,它将过去强(qiáng)化学习或者其他一些技术,其实在研究里已经做了很多东西,但(dàn)实际上它在大规模(mó)基座模型上(shàng)能够做出来的效果,这(zhè)还是从工程(chéng)上,或者(zhě)从实现上来说对行(xíng)业很大(dà)的(de)触动。当然它也会错发或者激发出来很多未来的探索,或者实际 的研发,可能会走向(xiàng)从narrow到general的跃迁。刚才讲到速度,我相信它会很快,因(yīn)为大家已(yǐ)经(jīng)有很多准备了,我也期待这个领域里更多将(jiāng)L2做得(dé)更好,甚至(zhì)更高阶的能实现。
杨植麟:我觉得它的意(yì)义确实是很大,主要(yào)意义(yì)在(zài)于它提升了AI的上(shàng)限。AI的上限是说,你现在(zài)去提升5%、10%的生产(chǎn)力,还是说10倍的GDP,我觉得(dé)这里最(zuì)重要的问题就是你能不能通过(guò)强化学习进一步scaling,这(zhè)是完(wán)全提升了AI上(shàng)限(xiàn)的东西。我们如果(guǒ)看AI历史上七八十年的发展,唯一有效的就是scaling,唯一有效的就是加更多的算力。但在O1提出之前,可能也有很多人在研究强化学习,但都没(méi)有一个非常确切的答案,强化学习如果和大语言模(mó)型,或者和training processin这些东西整合在一(yī)起,它能否(fǒu)持续提(tí)升。比如GPT4这一(yī)代模型(xíng)的提升,更多是确定性的提升,我在(zài)一样范式下把规模变得更大,它(tā)肯定是确定性的提升(shēng)。但是我觉得O1的提升并不是一个完全确定性的(de),这样的提升。
所以在之前大家可能会担心现在互联网上(shàng)大部分优 质数(shù)据都 已经被使用(yòng)完了,然后你可能继续使用这个数据也没有(yǒu)更(gèng)多(duō)数据可以挖(wā)掘,所以 你原来的范式可能会遇(yù)到问题(tí)。但AI有效了,你又(yòu)需要进一步scaling,那你这(zhè)个scaling从哪里(lǐ)来,我觉得很大程度上解决(jué)了这个问题(tí),或者(zhě)说至少证明了它(tā)初步可行(xíng)。初步可行的情况(kuàng)下,可能我们会有越来(lái)越多人投入去做这个事情,最终你要做(zuò)到10倍GDP的最终效果,它完全有可能,我(wǒ)觉得是(shì)一个很重要的(de)开端。
我觉得对很多产(chǎn)业格局上,或者对于创业公司(sī)新机会来说也会发生一些变化。比如我觉(jué)得这里很(hěn)关键的一个点,你的训练(liàn)和推理算力占比是会发生很大的变化,这个(gè)变化我(wǒ)不是说训练的算(suàn)力会下降,训练的算力还会(huì)持续提升(shēng)。与此同时,推理的算力提(tí)升会更快,那这个(gè)比例的变化本质上会产生(shēng)很多新的(de)机会,可能这里很多新的创业公司的机会。一方面(miàn),如果(guǒ)你达到(dào)一定的算力门槛,它可(kě)以在这里(lǐ)做很多算(suàn)法的基础创新,那你可以在基础的模型上甚(shèn)至取得突破,所以我觉得这个 很重(zhòng)要。
对于 算(suàn)力相对小一点的公司,它也可以通过(guò)后训(xùn)练的方式,在一些领域上做到一些 效果,这里也(yě)会产生更多的产品和技术机会,所以(yǐ)我觉得整体也是(shì)打开了(le)创业相关(guān)的想象空(kōng)间。
主持人:这一波AI新的变化,接下(xià)来(lái)会对(duì)AI相(xiāng)关的产品(pǐn)带来什么样(yàng)的连锁反应,这个变化如何发生?
杨植麟:这是很好的问题,我们现在还是处于产(chǎn)业发展(zhǎn)的早期(qī)。产业发展的早期有一个特点,还是技(jì)术驱动产(chǎn)品会(huì)更(gèng)多,所以(yǐ)很多时候(hòu)你的(de)产品会去看当前的技术是怎么发展,然后(hòu)把它最大化的价值(zhí)提取出来,所(suǒ)以这个问题(tí)首先非常好,可能我们根据这个 新的技(jì)术进展,再返(fǎn)过来推一下现在产品应该做什么(me)变化(huà)。
现在的技(jì)术发展有几个(gè)点:
一 个,我觉得这(zhè)里面会有 很(hěn)多探索 新的PMF(product market fit)的(de)机会。我觉得PMF指的是两个东西的平衡:一方面是由于你需(xū)要(yào)做这种系统2的思考(kǎo),导致你的延时增加。对用户(hù)来说(shuō),延时(shí)增加是一个负向的体验,因为所有用户都希望我尽快能(néng)拿到结(jié)果;第二(èr)个点,它确实能提供更好的输出,能拿到更好的结果(guǒ),甚(shèn)至能完成一些跟更(gèng)复(fù)杂的任务。等于说新的PMF产生的过程或 者探索的过程,其实是(shì)要在在延时增(zēng)长的用户体验下降和最后(hòu)结果(guǒ)产生质量更高的用(yòng)户价值的上升之间找到一个平衡点。所以你要让这(zhè)个增量的价值是大(dà)于体验的损失,我觉得这个很重要。所以在这里面更(gèng)高价值的场景,特别是生产力的场景,我觉得(dé)会率先有一些(xiē)东(dōng)西(xī)出来。因为如果你是一(yī)个娱乐场(chǎng)景,大概率(lǜ)你(nǐ)可能很难忍(rěn)受(shòu)这种延时上的增加。所以,我觉得这是(shì)比较重要(yào)的(de)一点
产品形态上,我觉得也会发生一些变化。因(yīn)为(wèi)你引入这种思考的范式,所(suǒ)以现在同步及时的类似聊(liáo)天的产品(pǐn)形态一定会发生变化。因为以后的AI,可能(néng)它不(bù)光是现在思考个(gè)20秒、40秒,它(tā)已经可能要思考或者(zhě)调(diào)用各种工具,它可能执行分钟级别、小时级(jí)别甚至(zhì)天级别的任务,所以你的产品形态上可能会更接近(jìn)一个人,它更接(jiē)近“助理”的概念,帮(bāng)你完成异步的任务。这里面的产品(pǐn)形态设计,我觉得可(kě)能也会发生很大的变化(huà)。所以这里面,我(wǒ)觉(jué)得新的想象空间蛮大的。
朱军:我觉(jué)得大模型或(huò)者大规模预训练的技术代表着整个范式(shì)的变化,前面也聊到很多,不光是语言,到多(duō)模态,到具身(shēn)、空间智能(néng),中间还是想我(wǒ)怎么去(qù)让智能体能够(gòu)有交互,能够在这个过程中来学(xué)习。从智能的角度来看,包括从(cóng)AGI发展上,它是一个必然,因为决策(cè)、交互(hù)实际上是我们说的智能里(lǐ)面非常核(hé)心的能力的体(tǐ)现。我们(men)每时每刻其实都在做决策,我们面对的是一个未知的开放环境(jìng),所以对 于(yú)智能来说,它(tā)的发展路径上,在整个规划里面(miàn)大家也是朝着这(zhè)个方向(xiàng)走。
现在所有这些进展,包 括刚刚讨论很多的O1,包括(kuò)做视(shì)频生(shēng)成,或者3D,这些东西大家最后要指向的 有两个方向:
一个是给消费者看到(dào)的这些数字内容(róng),就是说看上去(qù)很好看(kàn)、很自然(rán),能够讲故事,能够让(ràng)大家参与讲故(gù)事(shì)、能够交互。这(zhè)肯定是一(yī)个很重要(yào)的方向,在(zài)数字内容上。
另(lìng)外一个方(fāng)向,指向实体、指向(xiàng)物理世界。
现(xiàn)在可(kě)能最好的一个结合点就是和机器人来结合在一起。其实现在已经有好多例子在展示出来,我(wǒ)们也看(kàn)到很好的(de)一些进展,比如用了预训练(liàn)的范式,如何让机器人的能力具有通(tōng)用(yòng)性;比如我们自己实验室做(zuò)多的例子,像四足机器人,过去大家在不同场(chǎng)地(dì)上,你(nǐ)要让(ràng)它(tā)跑起(qǐ)来都需要用很多的人工调参(cān)。但现在你在一(yī)个仿真环境里面,或者用一些AI的方(fāng)式来生成一些(xiē)合成数(shù)据,让它在里(lǐ)面大规模地训(xùn)练,训练出来的策略(lüè)可以灌(guàn)到机器人上,它相当于换了一副大脑,可以让它(tā)的四肢更(gèng)好地协(xié)同起来(lái),同(tóng)样一(yī)套策略可以做各种场地的(de)适应(yīng)。其(qí)实这还是一个初步的例子,现在(zài)大家也在关注更复杂的控(kòng)制决策,就像(xiàng)空间(jiān)智能(néng)、具身智能。
就像刚才讲到智能体是AGI的L3,所以(yǐ)现在用到L1、L2的进展之(zhī)后,后面(miàn)肯定会提升到L3,让机器人更好地做它的(de)推(tuī)理规划,然后更好(hǎo)更高(gāo)效地和环境(jìng)做交互,更好地完(wán)成我们的复杂任务(wù)。因(yīn)为现在很多时候任务相(xiāng)对来说分散,给它定义成(chéng)一个简(jiǎn)化的。未来,我们很快可以看到(dào)它可以接受复杂(zá)的(de)指令、完成复杂的任务,通过它内嵌的思维链或者过程的学习方(fāng)式,能够完成复(fù)杂任务。所以到那个(gè)时(shí)候,智能的能力又(yòu)有一个很巨(jù)大的提升。
主持人:虽然意(yì)料未来都很难,至少(shǎo)心里会有一个期待,比如(rú)在下一个18个月里,我(wǒ)们希望看到什么样的进展,在AGI的领域里?
朱军(jūn):因为现在(zài)整个是一个加速,其(qí)实很多时候我们预测通常会过于保守。如果(guǒ)回(huí)到你的问题,我预想未来18个月 可能比较令人兴奋的一个(gè)进展,我希望看到AGI的(de)L3已经基本上实现。至少在智能体,比(bǐ)如我们说的世(shì)界模(mó)型的创建(jiàn)生成、虚实融合,至少(shǎo)在一些特定场景(jǐng)下的决(jué)策能力(lì)的巨大的提升。其实它会利用我们今天(tiān)讲到的推理、感知等等。
因(yīn)为我前一段时间 领了一个任务,就是对L4做(zuò)专门的分析,就是到(dào)底我们缺什么?做了L4的。其实最后调研或者是分析下来,你会发现如果我们要做(zuò)科学发(fā)现(xiàn)或者做创新,它需要的那些能(néng)力,可(kě)能目前(qián)是散落在各个角落里(lǐ)面,当然现在可能还缺一个系统怎么把这些(xiē)东西集成在一起,给它做work。所以我觉得如果更激进一点,我甚(shèn)至觉(jué)得未来18个月可能在(zài)L4上也会有显著的进展。当然这里面(miàn)我讲的是严肃(sù)的科学发现,其实L4还有(yǒu)一些(xiē)创意的表达上,目前我们在某种意(yì)义上已经达到了,比如说(shuō)艺术创造、图生视频,一定程度上(shàng)它已经帮大(dà)家(jiā)放大你的(de)想(xiǎng)象,或者让你的想(xiǎng)象可(kě)以具象化。所以,我对整(zhěng)个于是(shì)还是比较乐观的,我觉(jué)得至少(shǎo)L3或者未来L4有一些 苗子了。
到今年年底,希望将我们本(běn)来做的视频模型能够以更(gèng)加高效、更(gèng)可控的方式提供给大家。
我解释一下高(gāo)效和可控(kòng)。可控,比如你(nǐ)想表达一个故事,不是简单地将一段话或者一个图片给它动起来,我们是希望(wàng)你可(kě)以连续地讲,而且它不光是人的(de)一致性(xìng),还包括物(wù)体等各种(zhǒng)主题的一(yī)致性,还包括交(jiāo)互性;高效,它一方面解决对算力成本(běn)的考量,因(yīn)为你如果想要服务(wù)很多人,让大家用的话,首先(xiān)你成本要降下来,不(bù)然这个本身就是(shì)烧(shāo)钱,一直赔钱。另外一个更重要(yào)的,还是从体验上。就使用者来说,因为他想表达自己的创意,他(tā)可能(néng)需要多次和系统来交互,一方面是验证,另外一方(fāng)面(miàn)是启发,所以(yǐ)这个(gè)过程也需要你的(de)模型系统能够比较高效,比如说(shuō)终(zhōng)极目标达到实时,能够让(ràng)大家(jiā)快速尝试。等到这个阶(jiē)段(duàn),我相信大家的用户体验,包括用户量都会有一(yī)个巨大的(de)提升(shēng),这是我们(men)今年想重点突(tū)破的。当然长(zhǎng)远(yuǎn)的话,可能明年18个月会走向实体的虚实融合的场景了。
杨植鳞:我(wǒ)觉得接下来最重要的,可能是开放性的(de)强化学习,比如说你在产品上跟用户交互,在一个(gè)真实的环境里(lǐ)面完成任务(wù),然 后自己去进化。当然,我觉得O1一定(dìng)程度上说明这(zhè)个方向有比之前更强的确定性,我觉得这个会是一个重要 的里程碑,也是AGI路上现在仅甚唯一的一个重要问题(tí)了。所(suǒ)以,我(wǒ)觉得这个会很(hěn)关键。
张鹏:对(duì),18个月已经是很长(zhǎng)了,如果看看看过去18个月走的路。你未来3个月,有什(shén)么可以透露的吗?
杨植(zhí)鳞:我们还是希望能够在产品和技术上持续地创新,至少可能在一两个重要(yào)领域(yù)能够做到世界最好,但是(shì)有新的进展会尽(jǐn)快(kuài)跟大家(jiā)分(fēn)享。
姜大昕(xīn):第一,我也很期(qī)待强化学习能够进一步泛化。另外一个方向其实(shí)我也(yě)很期待,应该说期 待了很久就是在视觉领域(yù)的(de)理(lǐ)解和生成一体化(huà)的事(shì)情。因为在(zài)文字领域,GPT已经做到了理解生成一体化,但遗憾(hàn)的是在视觉领域,这个(gè)问题(tí)当然(rán)不是遗憾,它非常难。所以(yǐ)在目前为(wèi)止,我们看到(dào)的视觉的(de)理解和生成,这两个模型是分开(kāi)的。即使(shǐ)像刚才说的多模融合,如果大家仔细看GPT4,它其他模态都解决了(le),它唯独不能生(shēng)成视频,所以这是一个悬(xuán)而未决的事情。
它为什么(me)很重要呢?如果我们解决了视频理解生成(chéng)一(yī)体化,我们就可(kě)以彻底建立一个多模的世界(jiè)模型,有一个多模的世界模(mó)型以后,可以帮助我们真正(zhèng)产生非常长的视频,也就是说解决Sora(音译)目(mù)前的 技(jì)术缺陷。还有一个,它(tā)可以(yǐ)和具身智能相结合,它可以(yǐ)作为机器人的大脑去帮助智能体更好地探索物理世(shì)界,所以(yǐ)我也是非常期待的。
张鹏:你未来(lái)年底之前,有什么我们值得期待的你的进展?
姜大昕:我也是期待一方面模型(xíng)和技术(shù)的进步(bù),另外一方面产品能带(dài)给用户更多更好的体验(yàn),其实(shí)阶跃有一款产(chǎn)品叫“跃问(wèn)”,在上面,用户可以体验我们最新的万(wàn)亿参数的模型,它不光是(shì)理科很强,而且它的文学创作能力也很强,经常给大(dà)家带来一些惊喜。同时,跃问上还有一个新的功能叫“拍照问(wèn)”,我们看到用(yòng)户经常(cháng)拍张照片去问食物的(de)卡路里,去(qù)问(wèn)宠物(wù)的心情,问一个文物(wù)的前世今(jīn)生,包括Mata眼镜的发布,还有(yǒu)Apple Intelligence,它今年都(dōu)突出了视觉交互的(de)功能。所以我们在跃问(wèn)上也有体现(xiàn),而且我们会努(nǔ)力一步(bù)步把这(zhè)个功能做得越来越好。
未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了