橘子百科-橘子都知道橘子百科-橘子都知道

阶跃星辰姜大昕、月之暗面杨植麟、生数科 技朱军,云栖大会激辩“通往AGI的大模型发展之路”

阶跃星辰姜大昕、月之暗面杨植麟、生数科 技朱军,云栖大会激辩“通往AGI的大模型发展之路”

【TechWeb】9月20日消息(xī),在2024云栖大会上 ,极客公园创(chuàng)始人、总裁 张鹏对话阶跃星辰创始人、首席执行官姜大昕,月之暗面Kimi创始人 杨植麟,清华大学人工智能研究院副院长、生数科技首席科学家朱军(jūn),三(sān)人对AGI发(fā)展现状和未来展望(wàng)进行了(le)激烈讨论和前瞻展(zhǎn)望。

2024年,AI 发(fā)展变慢了(le)吗?过去18个月,AGI的发展是加速还是减速 ?如何评价OpenAI 最新(xīn)发布的(de) O1 模型?强化学习将改变什么(me)?大模(mó)型时代的创(chuàng)业新范式是什么?

姜大昕表示AI 技术发展(zhǎn)加速, AI 发展正在经历关键的技术范(fàn)式迭代: OpenAI 的大模型 o1 探(tàn)索出了通过(guò)强化学习(xí)让 AI 具备人类慢思考(可主动反思、纠错的复(fù)杂(zá)思考)能力(lì)的方式,接下来提升强(qiáng)化(huà)学习模型的泛化能力和加速推进(jìn)多模态理解生成一体化是 AI 技术进一(yī)步突(tū)破的关键。阶跃(yuè)星辰积极探索新的(de)技术范式,已经在(zài)万亿(yì)参数模型上(shàng)实现了强化(huà)学习(xí)训练的方法论。同时,持续打磨更高性能的底(dǐ)层大模型,提升C端产品体验。据他 透露,近(jìn)期阶跃星辰自研(yán)的 Step-2 万亿参数 MoE 语言大模型已接入智能助手“跃问”,展现出更强大的指(zhǐ)令跟随、创(chuàng)作和推 理(lǐ)能力。

谈到(dào)AI产品未来(lái)的可能形态,杨植麟表示,以后的 AI可(kě)能要思考或者调用(yòng)各种工(gōng)具,它可(kě)能执行分钟级别、小时级别甚至天级别的任务,所以产品形态上可能会更接近一个人,它更接近(jìn)“助理”的概念,帮你完成(chéng)异步(bù)的任(rèn)务。这里(lǐ)面的产(chǎn)品形态设计可能也会发生很大的变化 ,想象空间蛮大。

谈到未来18个可能发生的事情,朱军(jūn)表(biǎo)示,预 想未来(lái)18个(gè)月可能(néng)比较令人兴奋(fèn)的一(yī)个进展,我希望看到AGI的L3已经基本上实现。至少在 智能体,比如我们说的世界模型的(de)创(chuàng)建生成、虚实融合(hé),至少在一些 特定场景下的决策能力的巨大的提升。其实它会利用我们今天讲到的(de)推理、感知等等。

以下为对话实录摘录:

主持人:从ChatGPT的发展,引发(fā)了(le)整(zhěng)个世界对于(yú)AGI这个事情的理解,发展到现在也18个(gè)月了。各位的(de)感受是怎(zěn)么(me)样的(de),过(guò)去(qù)18个月,AGI的(de)发展是加(jiā)速还是减速?

姜大昕:我觉得过去18个月速度还是在加速的,速度还是非常快的。因为当我们回顾过去18个月发生的大大小小的AI事件以后(hòu),可以(yǐ)从两个维度去看(kàn),一(yī)个是数量的角度,一个是(shì)质(zhì)量的角(jiǎo)度。

  从数量的(de)角度来看,还(hái)是(shì)每个月都(dōu)会有新的(de)模型、新的产品、新的应用涌现出来。比如单从模型(xíng)来看,OpenAI  2月份发了一个sora,我记(jì)得(dé)当时还是过年的时候,把大家轰炸了 一下。然后5月份出了一个GPT-4o,上周又出了o1。OpenAI的(de)老(lǎo)对手Anthropic它有(yǒu)Claude3到Claude3.5的系列,再加上谷(gǔ)歌Gemini系列、Claude系列、LLaMA的系列,等等。

阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”所以,回(huí)顾过去,我们的感觉还是GPT-4是一(yī)家独大,遥遥领先。到了今年就变成了一个好(hǎo)像是群雄并(bìng)起,你追我(wǒ)赶的局面,所以感觉各家是在提速了。

 从质量的角度来看,我觉得有(yǒu)三件(jiàn)事(shì)情(qíng)可能给我的印象非常的 深(shēn)刻。

   第一件事情,GPT-4O的发(fā)布(bù)。因(yīn)为我看它(tā),认(rèn)为它是在(zài)多模融(róng)合这样的一个领域上了一个新的台阶。在(zài)GPT4O之(zhī)前(qián),是有GPT4V,它是(shì)一个视觉(jué)的理(lǐ)解模型,有Dalle、Sora,这是视(shì)觉(jué)的生成模型。还(hái)有Whisper这是声音模型。所(suǒ)以原本这些孤立的模型到了4O这里都融合在一起了。

   那为 什(shén)么融合这件事情非常的重(zhòng)要?是因为(wèi)我们的(de)物理世界本身就是一个多模的(de)世界,所以多模融合一定是有助于更好的去为我(wǒ)们的物理世界建(jiàn)模,去模拟世界这样一件事情。

   第二件事情(qíng),特斯拉发布(bù)的(de)FSD V12。大家知道它是(shì)一个端到端的大(dà)模型,它(tā)把感知信号变成(chéng)一个控制序列。智驾是一个非常有代表性的,它是一个从数字世(shì)界走向(xiàng)物理世界一个真实的应用场景。所(suǒ)以,我觉得 FSDV12它的成功,意义不仅在于智(zhì)驾本身,这套方法论可以认为是(shì)为将来的智能设备如(rú)何和(hé)大模(mó)型相结合,更好的去探索物理世界指明了一(yī)个方向。

第三件事情,上周的O1,我对它(tā)的理解,它第一次证明了语(yǔ)言(yán)模型其实也(yě)可以有人脑(nǎo)的慢思考,就是系统2的能力。而我们觉得系统2的(de)能力它是归纳世界所必备的一个前 提条(tiáo)件,是(shì)一个基础的能力。所以,我们(men)一直认(rèn)为,AGI的(de)演进路线可以(yǐ)分(fēn)为模拟世界、探(tàn)索世(shì)界、最后 归纳(nà)世界。而(ér)过去几个月的时间我们看(kàn)到GPT4O、FSD V12和O1分别在这三个阶段或者这三(sān)个(gè)方向上都取得(dé)了非常大(dà)的突破,而且更重要的是(shì)为将来的发展也指明了一个方向。所以无论是从数量还是质(zhì)量上(shàng)来说,都是可圈可点。

杨植麟:我觉得整体也(yě)是属于加速发展的(de)阶段,核心可(kě)以从(cóng)两个(gè)维度来看(AI的发展),第一个维度是纵向的维度,也就是说你的智(zhì)商是一直(zhí)在提升的,这个(gè)主要(yào)现在的反应方式(shì)还是你去看(kàn)文本(běn)模型能做到多好。第二个是横向的发展。除(chú)了文本模型之外,刚(gāng)才姜总提到的,也会(huì)有各种不同的模态,这些模态会做一个横向(xiàng)的发展,更 多的让你这个(gè)模型具备更多的技能,能够去完成(chéng)更多的任务,然后同时跟纵向的智商的发展相(xiāng)结合。

   在这两个维度(dù)上,我(wǒ)觉得都看到了非常大的进展,比如说(shuō)在纵向的维度上(shàng),其实智商是一直在提升(shēng)的,比如说我们如果 去看(kàn)竞赛数学(xué)能力,去年是完全不(bù)及格,到今年已经能做到90多(duō)分,像代码基本(běn)上也是一样,能够击(jī)败很多(duō)专业的编程(chéng)选(xuǎn)手,包括因此也产生了很多新(xīn)的应用机(jī)会(huì),比如说像现在比较流行的(de)类似(shì)curser这样的,通(tōng)过自然语(yǔ)言直接去写代码 的这(zhè)样的软 件也越来(lái)越普及,这是技术发展的结果。包括我们(men)去看很多具体(tǐ)的技(jì)术指标,现在的语言模(mó)型能支持的上下(xià)文的(de)长度,我们如 果去年这个时间点去看的话,大部分的模型都只能(néng)支持4K-8K的,但是从今(jīn)天去看你会发现4K-8K已经是非 常低的数了,128K是一个标配,已经有(yǒu)很多可以支(zhī)持1M甚至(zhì)10M的长文本(běn)的长(zhǎng)度。所以,它这个其实也是后面(miàn)你的智商不断提(tí)升的一个很重要的(de)基础。

   包括最(zuì)近的很多进展,它不光只是说Scaling,Scaling还是会持续。而且很(hěn)多进展(zhǎn)也来自于你的后(hòu)训练 算法的优化,来自(zì)于你数据的优化,这些优化它的周期是 会更短的。所以(yǐ),这个周期更(gèng)短导致你整体(tǐ)AI发(fā)展节奏也会进一(yī)步加快,包括(kuò)我们最近(jìn)在数学上看(kàn)到的很多进(jìn)展,其实也是得(dé)益于这(zhè)些技术的(de)发(fā)展。

 横向上当然也产生了很多 新的突破,当然(rán)Sora可能是影响力最大的,在(zài)这(zhè)里面完成了这个视频生成。包括最近有特别多新的产品和技术出来(lái),现在你已经可以通过一个(gè)论文直接生成基本上你看不出来是真是假(jiǎ)的双人(rén)的对话。类似这样的不同模态之间的转化、交互和(hé)生(shēng)成,其实会变的越来越成(chéng)熟。所以,我觉得整(zhěng)体是(shì)在加(jiā)速的过程中。

朱军:AGI这里面(miàn)大家最关注的还(hái)是大模型(xíng),刚才两位也(yě)讲了去年包括今年大模型也发生了很多重(zhòng)要的变化。整个的进(jìn)展我是非常同意刚才讲(jiǎng)到的,在加快。

   另(lìng)外,我想补充一点,大家在(zài)解新的问题,这个速(sù)度也在加快了,我们(men)说它的(de)Leaning  corve在变(biàn)的更陡。原来如果你看语言(yán)模型,可能从2018年最(zuì)早去做的,到去年以(yǐ)及到今年,大家走了五六年的(de)路。但其实从去年(nián)开始,上半年大家还(hái)是(shì)关注语言模型,下半年在讨(tǎo)论(lùn)多模(mó)态,从(cóng)多模(mó)态理解再到(dào)多模态生成。我们再回(huí)过头看的话,比如说图像或者视频,其(qí)实视频最明显,从(cóng)今年的(de)2月份,当(dāng)时很(hěn)多(duō)人被震惊到(dào)了,因为它很多没有公开(kāi),就说怎么(me)去突(tū)破?有(yǒu)很多的(de)讨论。但事实上(shàng)我们现在看到这个行业(yè)里面(miàn),大概用(yòng)了半(bàn)年的时间,已经做到了可以去用,而且(qiě)达到了一(yī)个很好的一些效(xiào)果,在时(shí)空一致性上。所以(yǐ)大概(gài)走了半年的路。

  所以这里面加 速的一个(gè)最(zuì)核心的(de)原因,现在大家对这种路(lù)线的认知和准备上,达到了比较(jiào)好的(de)程度。当然我(wǒ)们还有物 理 的条件,比如说像云的设施,计算的资源的准备上,不(bù)像ChatGPT当时出来的时候,大(dà)家当时更多(duō)的 是(shì)一种不知所措,我觉得(dé)很多人可能没准备好去接受这个,所以中间(jiān)去花了很(hěn)长(zhǎng)时间去学习、去 掌握这个。当(dāng)我们掌(zhǎng)握了之后再发(fā)现这(zhè)个(gè)进展的话,再去做新的问题,其实它的 速度是越来越快的。

当然(rán),这个可能不同的能力它再辐射到实(shí)际的用户的角度来说,有一(yī)些快(kuài)慢之分,当然也分行业。这个可能在广泛的角度来(lái)说,大家可能没感知到。但是从(cóng)技术来说,其实这个进展(zhǎn)我感觉是(shì)曲线越来越陡,而且可能对后边我(wǒ)们要预测未来的话,包(bāo)括向更高(gāo)阶的AGI发(fā)展,我是比较乐观的,可能 会看(kàn)到比之前更快的速度去实现了。

主持人:最近OpenAI刚刚出的O1的新(xīn)的模型(xíng),也是在专业人群里形成(chéng)了非常多的影(yǐng)响,现在还(hái)在很丰富的讨论。怎(zěn)么评价(jià)O1进展的(de)意义?

 姜大昕:确实我看到一些非共识,有些人觉 得(dé)意义很大,有些人觉得也不过(guò)如此。我觉得大家如果去试用O1的(de)话,可能(néng)第一印象是它的推理能力确实非常(cháng)惊(jīng)艳,我们自己试(shì)了(le)很多(duō)Query,觉得推理能力确实上了一个很大的台阶。

 然后我们去(qù)思考它背后的意义究竟是什么,我(wǒ)能想到的有两点:1.它第(dì)一(yī)次证明了Large language model,就是语言模型,它可以有人 脑的(de)慢思考的能力。它(tā)和以前GPT的范式(shì),或者GPT的训练,它叫,Predict next Token,它只要这样训(xùn)练(liàn)了,就(jiù)注定了它只有system 1的能(néng)力(lì)。而O1是用了一个强化(huà)学习的训练框架(jià),所以带来了系统2的(de)能力。

   系(xì)统1的体现,它是一个直线性(xìng)思维,虽然我们看到GPT4有时候可以把一个复杂(zá)的问题拆解成很多步,然后分步去解决,但它还是(shì)直(zhí)线性的。系统1和系统2最大的区别在于,系统2能够(gòu)去探索不(bù)同的路径,它(tā)能够(gòu)自我去反思、自我(wǒ)去纠错,然后不断的试错,直到找到一(yī)个正确的途径,这是系统2的特(tè)点。这次O1,它是把以前的模仿学习和强化学 习结合起来了,使得一个模型同时有了人脑系统(tǒng)1和系统2的能力。所以我觉得从 这(zhè)个角度(dù)来看,它的意义是非常大的。

  第二,它带来了一个Scaling Law的新方向,我理解O1试图回答的一(yī)个(gè)问题,就是说RL(强(qiáng)化(huà)学(xué)习)究(jiū)竟怎么(me)去(qù)泛化(huà)。因为强化学习它不是第一个,DeepMind一直走的是强化学(xué)习的路线,从AlphaGo到AlphaFold到AlphaGeometry,其实它在强化学习上是非常厉害的。但以前强(qiáng)化学习的场(chǎng)景都是会为特定场景去设计,AlphaGo只能下围棋,AlphaFold只(zhǐ)能去预测蛋白质的结构。所(suǒ)以这(zhè)次O1的出现,它是在RL强 化学习通(tōng)用性和泛化(huà)性上了一 个大的台(tái)阶,而且 它scale到(dào)了一个很大的(de)规模,所以我 把它看成scaling带来(lái)新的技术(shù)范(fàn)式,我(wǒ)们不妨 称之为RL Scaling。而且我们看到有意思的一点,O1并没有到很成 熟(shú)的阶段,它还是一个开(kāi)端,但是这(zhè)个恰恰让人(rén)觉得非常的兴(xīng)奋,这就等于OpenAI跟我们说,我找到了一条上限很高的道路,而且你仔(zǎi)细去思(sī)考它背后的方法,你会相信这条路实际上是能走得下(xià)去。所以(yǐ)O1从(cóng)能力上来讲(jiǎng),我觉得它展示了Language model可以有系统(tǒng)2的能力,从技术上来说它带来新的scaling范(fàn)式,所以它的意义还是非常大的。

朱(zhū)军:我的看法,它是代表着一个显著的质变。我们也对AGI大概做了一些(xiē)分级,学术界,包括(kuò)产业界大家(jiā)有L1-L5的分级。其实(shí)L1的话相当于聊天(tiān)机器人(rén),就是像(xiàng)ChatGPT等,之前大家做了很(hěn)多对话的(de)。L2叫推理者(zhě),实际上可以做复杂问题深度(dù)思考的推理。L3叫智能体,回应吴(wú)总讲的“数字(zì)世界”走向“物理世界”,我要去改(gǎi)变的,我要去 交互的。L4是创新者,它要去发现、创造一些新的东西,或者发现一些新的 知识。L5是组织者,它 可以去协同,或者某种组织方式更高效来运转(zhuǎn),这是 大家(jiā)对于(yú)AGI L1-L5的分级,当然每(měi)一级也有narrow和general的区分(fēn),在某些Task上展示出来。比如O1在L2的narrow场景下(xià),在一些特定(dìng)任务下阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”军,云栖大会激辩“通往AGI的大模型发展之路”已经实现了(le)人类达到很(hěn)高阶的智能水(shuǐ)平。我觉得从分级角度来看,它确实代表着整个行业巨大(dà)的进步。

   刚才技术上姜总也讲了,它(tā)将过去强化学(xué)习或(huò)者其他一些技术,其实在(zài)研究里已经做了很(hěn)多东西,但实(shí)际(jì)上它在大规模基座模型上能够(gòu)做(zuò)出来的(de)效(xiào)果,这(zhè)还是从工(gōng)程(chéng)上,或者从实(shí)现上来说对行业很大的触动。当然它也会错(cuò)发或者(zhě)激发出来很多未来的探索,或者(zhě)实际的研发,可能会走向从narrow到(dào)general的跃迁。刚才讲到(dào)速度,我相信它(tā)会很 快,因为大(dà)家已经有很多准备了,我也期待这(zhè)个(gè)领(lǐng)域里更多将L2做得更(gèng)好,甚至更高阶(jiē)的能实现。

      杨植麟:我觉得它的(de)意义确实是很大,主要意义在于它(tā)提升了AI的上限。AI的上限是说,你现在去提升5%、10%的生产力,还(hái)是 说10倍的(de)GDP,我觉(jué)得这里最重要的问题就是你能不能通过强化学习进一步scaling,这是完全提升了AI上限的东西。我们如(rú)果看AI历史上七八十年(nián)的发展,唯一(yī)有效的就是scaling,唯一有效(xiào)的(de)就是加(jiā)更多的算力(lì)。但在O1提(tí)出之前(qián),可能也(yě)有很多人在研究(jiū)强化(huà)学习,但都没有一(yī)个非常确切(qiè)的答案(àn),强化学习如果和(hé)大语言模型(xíng),或者和training processin这些东西(xī)整合在一起,它能否(fǒu)持续提升(shēng)。比如GPT4这一(yī)代模型的提升,更多是确定性的(de)提升(shēng),我在一样范(fàn)式下(xià)把规模变得更大,它肯(kěn)定是确定性的 提 升。但 是我觉得 O1的提升(shēng)并不是一个完全确定性的,这样的提升。

   所以在之前(qián)大家(jiā)可(kě)能会(huì)担心现在互联网上大部分优质(zhì)数(shù)据都已经被使用完了,然后你可(kě)能继续使(shǐ)用(yòng)这个数据也没有更(gèng)多数(shù)据可以挖掘(jué),所以(yǐ)你原来的范式可能会(huì)遇到问题。但AI有效了,你又需(xū)要进一步scaling,那你这个scaling从哪里来,我(wǒ)觉(jué)得很大(dà)程度上解决(jué)了这个问题,或(huò)者说至少证明了它初步(bù)可行。初步(bù)可行的情况(kuàng)下,可能我们会有越来越多人 投入去做这个事情,最终(zhōng)你要做到10倍GDP的最终效果,它完全有可能,我觉得是一个(gè)很(hěn)重要的开端。

   我(wǒ)觉得对很多产业格局上,或者对于创(chuàng)业(yè)公司(sī)新机(jī)会来(lái)说也会发生一些变化。比(bǐ)如我觉得这里很关键的(de)一个点,你的训练和推理算力占比是会发生很大的变化,这个变化我不是(shì)说训练的算力会下降,训(xùn)练的算力还会持续提升。与此同时,推理的算力提升会更快,那这个比例的变化本质上会产生很多新的机会(huì),可(kě)能这里很(hěn)多新的创业公司的机会。一方面,如果你达到一定的(de)算力门(mén)槛,它可以在这里做很多 算法的基础创新,那你可以在基础的模型上甚至取得突(tū)破(pò),所以 我觉得这个很重要。

对于算力相对小一点的公司,它也可以通过后训练的方式,在一些(xiē)领域上做到(dào)一些效果,这里也会产生更多(duō)的产品和技术机会,所(suǒ)以我(wǒ)觉(jué)得整体也是打开了创业相(xiāng)关的想象空间。

主持人:这一波AI新的变化,接下来会对AI相关的产品带来(lái)什(shén)么样的连锁反应(yīng),这(zhè)个(gè)变化如何发生?

杨植麟:这(zhè)是很好的问题,我们现在还(hái)是处于产业发展的早期。产业发展的早期有一个特点(diǎn),还是技术驱动产品会更多,所以很多时候你的产品会去看当前的技术是怎么发展,然后把它最大(dà)化的价值提取出来,所以这个问题首(shǒu)先非常好,可能我们根据这个新 的技术 进展(zhǎn),再返过来推一下现 在(zài)产品(pǐn)应该做什么变化。

   现在的技术发展有几个 点:

   一(yī)个,我觉得这里面会有很多探索新的PMF(product market fit)的机会。我觉得PMF指的是两个东西的平衡:一方面是由于你需要做这种系统2的思考,导致你的延时增加。对用户来说 ,延时增加是一(yī)个负向的体验,因为所有(yǒu)用户都(dōu)希(xī)望我尽快能拿到结(jié)果;第二个点,它确实能提供更好的输出,能拿(ná)到更好的结果,甚至(zhì)能完成一些(xiē)跟更复杂的任务。等于说新的PMF产生的过(guò)程或者 探索的过程,其实是要在在延时增长的用户体验 下降和最后结果产生质量更高的用户价值的上升之间找到一个(gè)平衡点。所以你要让这个增量(liàng)的价值是大于体验的损失,我觉得这(zhè)个很重要(yào)。所以在这里面更高价值的场景,特别(bié)是生产力的场景,我(wǒ)觉得(dé)会率先有一些东西出来。因为如果你是一个娱乐(lè)场景,大概率你(nǐ)可能很难忍(rěn)受这种延(yán)时上的增加。所以,我觉(jué)得这是比(bǐ)较重要的一点

   产品(pǐn)形态上,我觉得也会(huì)发生一些变化。因为你引入这种思考的范式,所以现在同步及时的类似聊天的产品(pǐn)形态一定会发生(shēng)变 化。因为以(yǐ)后的AI,可能它不光是现在思考(kǎo)个20秒、40秒,它已经可能(néng)要思考或者调用各种工具,它可能执行(xíng)分钟级别、小时级别甚至(zhì)天级(jí)别的任(rèn)务,所以你的产品形态上可能会更接近一(yī)个人,它更接近“助理”的(de)概(gài)念,帮你完成(chéng)异步的(de)任务。这里面(miàn)的(de)产品形(xíng)态设计,我觉得(dé)可能也会发(fā)生(shēng)很(hěn)大(dà)的变(biàn)化。所(suǒ)以这里面,我(wǒ)觉得新的想象(xiàng)空间蛮大的。

 朱军:我觉得大模型或(huò)者大规模预训练的(de)技术代表着整个范式的变化(huà),前面也聊到很多,不光是语言,到多(duō)模态,到具身、空间智能,中(zhōng)间(jiān)还是(shì)想我怎么(me)去让 智能体能够有交互,能够(gòu)在这个过程中来学习。从智能的角度(dù)来看 ,包括从(cóng)AGI发展上,它是(shì)一个(gè)必然,因为决(jué)策、交互实际上(shàng)是我们说的智能里面非(fēi)常核心的能力的体现。我们每时每刻其实都在做决策,我们面对的(de)是一个未(wèi)知(zhī)的开放环境,所以对于智能(néng)来(lái)说(shuō),它的(de)发(fā)展路径上,在整个规(guī)划里面(miàn)大(dà)家也是朝着这个方向走。

   现在所有这些进展,包括刚刚讨(tǎo)论很多的O1,包(bāo)括做视频生成,或者3D,这些东西大(dà)家最后要(yào)指 向的有(yǒu)两 个方 向:

  一个是给消费(fèi)者看到的这些数(shù)字内容(róng),就是说看上(shàng)去很好看、很自然,能够讲故事(shì),能够让 大(dà)家参与讲 故(gù)事、能够交互。这(zhè)肯(kěn)定是一个很重要的(de)方(fāng)向,在数字(zì)内容上(shàng)。

   另外一个方向,指向实体、指向物理世界。

现在可能最好的一个结合点就是和机器人来结合在一起。其(qí)实现在已经有好多例子(zi)在展示出(chū)来(lái),我们也(yě)看到很好的一些进展,比如用(yòng)了预训练的范式(shì),如何让(ràng)机器人的能力具有通用性;比如我们自(zì)己实验室做多的例子,像四足(zú)机器人,过去(qù)大家在不同场地上,你要让(ràng)它跑起来都需要用很多的人工调参。但 现在你在一(yī)个仿真环境里面,或者(zhě)用一(yī)些(xiē)AI的(de)方 式来生成(chéng)一些合成(chéng)数据,让(ràng)它在里面大规模地(dì)训练,训练出来(lái)的策略可以灌到(dào)机 器人上,它相当于换了一副大脑,可以(yǐ)让它的四肢更好地协同起来,同样一套策略可以(yǐ)做(zuò)各种场地的适应(yīng)。其实这(zhè)还是一个初步的例子,现在大家也在关注(zhù)更复杂的控制(zhì)决策,就像空(kōng)间智能、具身智能。

   就(jiù)像(xiàng)刚才讲到智(zhì)能(néng)体是(shì)AGI的(de)L3,所以现在用到L1、L2的进展之后,后 面肯定会提升(shēng)到L3,让机器人(rén)更好地做它的推理规划,然(rán)后更好更高效(xiào)地(dì)和(hé)环境做交互,更好地完成我们的复杂任(rèn)务(wù)。因为现(xiàn)在(zài)很(hěn)多时候任务相对来说分散,给它定义成 一个简化的。未来,我们(men)很快可以(yǐ)看到它(tā)可以接受复杂(zá)的指令、完成复杂的任务,通过它内嵌的思维链或者过程的学习方式,能够完成复杂任务 。所以到那个时(shí)候,智能的能力又有一个很巨大的提升(shēng)。

主持人(rén):虽然意料未来都很难(nán),至少心里会有一(yī)个期(qī)待,比如(rú)在下一个(gè)18个月里,我们希望看(kàn)到什(shén)么样(yàng)的进展,在AGI的领域里?

朱军:因为(wèi)现在整个是(shì)一个加速,其(qí)实很多时候我们预测通常(cháng)会过于保守。如(rú)果回到你(nǐ)的问题,我预想未来18个月可能比(bǐ)较令人兴奋的一个进展,我希望看(kàn)到AGI的L3已经(jīng)基本上实现(xiàn)。至少在智能体,比如我们说的世界(jiè)模型的创建生成、虚实融合,至少在一些(xiē)特(tè)定场景下的决策能力的巨大的提升。其实它会利用我们今天讲到的推理、感 知等等。

因(yīn)为 我前一段时间领了一(yī)个(gè)任(rèn)务(wù),就是对(duì)L4做专门的分析,就是到底我们缺什么(me)?做了L4的。其实最后调研或者是分析下来,你会发现如果我们(men)要(yào)做科学发现(xiàn)或者(zhě)做创新,它需要的那些能力,可(kě)能目前是散落在各个角落里面,当(dāng)然现在可能(néng)还缺一个系统怎么把这些东西集成在一起,给它做work。所以我觉得如果 更激进一点,我甚至觉得(dé)未来18个月可能在L4上也会有显著的进展。当然(rán)这里面我讲的是严肃的科(kē)学发现 ,其实L4还有一些创意的表达上,目前我们在某种(zhǒng)意义上已经达到了,比(bǐ)如说艺术创造、图生视频,一定程度上(shàng)它已经帮大家放大(dà)你的想象,或者让你的想象可以具象化。所以,我对(duì)整个于(yú)是还是比较乐观(guān)的,我觉得(dé)至少L3或者未来L4有一些苗子了。

到今年(nián)年底,希望将(jiāng)我们本来做的视频(pín)模型能够以更加高(gāo)效、更(gèng)可控的方式提(tí)供给大家。

   我解释一下高效和(hé)可控。可控,比如你想表达一个故事,不(bù)是简单地将一(yī)段话或者一个图片给它动起来,我们是希望你(nǐ)可(kě)以(yǐ)连续地讲,而且它不光是人的一致性,还(hái)包括物体等各(gè)种主题的一致性,还包括交互性;高效(xiào),它一方面解决对算力成本的考量,因为你(nǐ)如果想要服务很多人,让大家用的话,首先(xiān)你成本要降下来,不然这个本身(shēn)就是烧钱,一直赔钱。另外一个更重(zhòng)要的,还是从体(tǐ)验上。就(jiù)使用(yòng)者来说(shuō),因为他想表达(dá)自己的(de)创意,他可能需要多次和系统来交互,一 方面是验(yàn)证,另外一方面是启发,所以这(zhè)个(gè)过程(chéng)也需要你的模型系统能够比较(jiào)高效(xiào),比如说终极目标达到实时,能够让大家快速尝试。等到这个阶段,我相(xiāng)信大家(jiā)的用户体(tǐ)验,包(bāo)括用户量都会有一个巨大的(de)提升,这是我们今年想重点(diǎn)突破的。当然长远的话,可能明年18个月会走向(xiàng)实体的虚实融(róng)合的场景了。

   杨 植鳞(lín):我觉得接下来(lái)最重要的,可能是 开放(fàng)性的强 化学习,比如说你在产品上跟用(yòng)户交互,在一个真实的环境里面完成任(rèn)务,然后自己去(qù)进化。当然,我觉得O1一定程(chéng)度上说(shuō)明这个方向有比之前更强的确定(dìng)性,我觉得(dé)这个会是一个重(zhòng)要的里程碑,也是AGI路上现在仅甚唯一的一个重要问题了 。所以(yǐ),我觉得这个会很关键。

   张鹏:对,18个月已经是很长了,如果看看看过去18个月走的路。你未来3个月,有什么可以透露的吗?

   杨植鳞:我们还是希望能够在产(chǎn)品和技术上持续地创新,至少可能在一两个重要领域能够做到世 界最好,但是有(yǒu)新(xīn)的进(jìn)展会尽 快(kuài)跟大家分享。

   姜大(dà)昕:第一,我也(yě)很期待强化(huà)学习能够进一步泛 化。另外一个(gè)方向其实我也很期待,应该说期待了很久就是在视觉领域的理解和生成一体化的事情。因为在文(wén)字领域(yù),GPT已(yǐ)经做到(dào)了理解生(shēng)成一体(tǐ)化,但(dàn)遗憾的(de)是在视觉领域,这个(gè)问题当然不是遗憾,它非常难(nán)。所以在目前为(wèi)止,我们看到的视(shì)觉的理(lǐ)解和生成,这两个(gè)模型是分开(kāi)的。即使像刚才说的多模融合(hé),如果大家(jiā)仔细看GPT4,它(tā)其他模态都解决了,它唯独(dú)不能(néng)生成视频,所以这是一个(gè)悬而未决的事情。

  它为什么很重要呢?如果我们解决了视频理解生成一体(tǐ)化,我们就可以彻底建立一个多模的世界模型,有(yǒu)一个多模的世界模型以后,可以帮助我们真(zhēn)正产生 非(fēi)常长的视频,也就(jiù)是说(shuō)解决Sora(音译)目前的技术(shù)缺陷。还(hái)有一个,它可(kě)以和(hé)具身(shēn)智能相结合,它(tā)可以作为(wèi)机(jī)器人的大脑去帮助智能体更好地探索物理世(shì)界,所以我也是非常 期待的。

   张鹏:你未来年底(dǐ)之前,有什(shén)么我们(men)值得期待的(de)你的进展?

   姜(jiāng)大昕:我(wǒ)也是期待一方面模型和技(jì)术(shù)的进(jìn)步,另外一方面产品能带给用户更多更好的体验,其(qí)实阶(jiē)跃有一(yī)款产品叫 “跃问(wèn)”,在上面,用户可以体验我们最新的万亿参数的模型,它不(bù)光 是理科(kē)很强,而且它的文学创作能力也很强,经常给大家带 来一些惊喜。同时(shí),跃问上还有一个新的功能叫“拍照问”,我们看到用(yòng)户经常拍张照片去(qù)问(wèn)食物的卡路(lù)里,去问宠物(wù)的心情,问一个(gè)文物的 前世今(jīn)生(shēng),包括Mata眼(yǎn)镜的发布,还有Apple Intelligence,它今年都(dōu)突出了视觉(jué)交互的功能。所以我们(men)在跃问上也有(yǒu)体(tǐ)现,而(ér)且(qiě)我们会努力一步步把这个功能做(zuò)得越来越好。

未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

评论

5+2=