橘子百科-橘子都知道橘子百科-橘子都知道

阶跃星 辰姜大昕、月之暗 面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

阶跃星 辰姜大昕、月之暗 面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

【TechWeb】9月20日消息,在2024云(yún)栖(qī)大会上,极客公(gōng)园创始人、总裁 张鹏对话阶跃星辰创始人、首席执行官姜大昕,月之暗面Kimi创始(shǐ)人 杨植麟(lín),清 华大学人工智能研究院副院长(zhǎng)、生数科技 首席科学(xué)家(jiā)朱军,三人对(duì)AGI发展现状和未来展望进行了激烈讨(tǎo)论和前瞻 展望。

2024年,AI 发(fā)展变慢了吗?过去(qù)18个月(yuè),AGI的发展是加速还是减速?如何评价OpenAI 最新发(fā)布的 O1 模型?强化学习将 改变什么?大模型时(shí)代的创业新范(fàn)式是(shì)什么(me)?

姜大昕表示AI 技术发展加速, AI 发展正在经历关键(jiàn)的技(jì)术范式迭(dié)代: OpenAI 的大模型 o1 探索出了通过强化学习让 AI 具备人类(lèi)慢(màn)思考(可主动反思、纠错的(de)复杂思(sī)考)能力的方式,接下来提升强(qiáng)化学习模型的泛化能力和加(jiā)速(sù)推进多模(mó)态理解生成一 体 化是 AI 技术进一步突破的关键。阶跃星辰积极探索新的技(jì)术范式,已经在万亿参(cān)数(shù)模型上实(shí)现了(le)强化学习训(xùn)练(liàn)的方法论。同时,持(chí)续打(dǎ)磨更(gèng)高性能的底层大模型,提升C端产品体验。据他(tā)透露,近期阶跃星辰自研的(de) Step-2 万亿参数 MoE 语言大模型(xíng)已接入智能助 手“跃问”,展现(xiàn)出更强大的指令跟(gēn)随、创作和推理(lǐ)能力。

谈(tán)到AI产品(pǐn)未来的可能形态,杨植麟表示,以后(hòu)的AI可能要思考(kǎo)或者调用各种工(gōng)具,它可能执行(xíng)分钟级别、小时级别(bié)甚至天级别的任务,所以产品形态上可能会更接近一个人,它更接近“助理”的概念,帮你完(wán)成异步的任务。这里面(miàn)的(de)产品形态设计可能也会发(fā)生很大的变化,想象空间蛮大。

谈到未来18个(gè)可能发生的事情,朱军表示,预想未来18个月可能(néng)比较令人兴奋的(de)一个进展,我希望(wàng)看到AGI的L3已经基本上实现。至少在智能体,比如我们说的世界模型的创建生成、虚实融合(hé),至少在一些特定场景下的决策能力的巨大的(de)提升。其实它会利用我们今天讲到的(de)推理(lǐ)、感知等(děng)等。

以下为(wèi)对话实录摘(zhāi)录(lù):

主持人:从ChatGPT的(de)发展,引发了整(zhěng)个世(shì)界(jiè)对于(yú)AGI这个事情(qíng)的理解,发 展到现在也(yě)18个月了。各位的感受是怎么样的,过去18个(gè)月,AGI的发展是加(jiā)速还是(shì)减速?

姜大昕:我觉得过去18个月速度还是在加速的(de),速度还是非常(cháng)快(kuài)的。因为当(dāng)我们回顾过去18个月发生的大大小小的AI事件以后,可以从两个维度(dù)去看,一(yī)个是数量的角度,一个是质量(liàng)的角度。

  从数量的角度来看,还是每个月都会有新(xīn)的模型、新的产品、新的应用涌现出(chū)来。比如单从模型来看,OpenAI  2月(yuè)份发了一个sora,我(wǒ)记得当(dāng)时还是过年的时(shí)候,把大家轰炸了一下(xià)。然后5月份出了一个GPT-4o,上周又(yòu)出了o1。OpenAI的(de)老(lǎo)对手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌(gē)Gemini系列、Claude系列、LLaMA的(de)系列,等等。

所以(yǐ),回顾过去,我们的感觉(jué)还(hái)是GPT-4是一家独(dú)大,遥遥领(lǐng)先。到了今年就变成 了(le)一个好像是群雄并起,你追我赶的局面,所以感(gǎn)觉各家是在提速了。

 从质(zhì)量的(de)角度来看,我觉得(dé)有三件事情可能给我(wǒ)的印象非(fēi)常的深刻。

   第一件事情,GPT-4O的发(fā)布。因为我看它,认为它是在多模融合这样(yàng)的(de)一个领(lǐng)域上了一个新的台阶。在GPT4O之 前,是有GPT4V,它是一个视觉的理解模型(xíng),有Dalle、Sora,这是视觉的生成模型 。还有Whisper这是声音模型。所以原本(běn)这些孤立的模型(xíng)到(dào)了4O这里都(dōu)融合在一起了。

   那为什么融合这件事(shì)情非常的重要?是因(yīn)为我们的物理世界本身就是一个多模的世界,所以多模融合一定是有(yǒu)助于更好的去为(wèi)我们的物理世界建(jiàn)模,去模拟世界这样一件事情。

   第二件事情,特斯拉发布的FSD V12。大家知(zhī)道(dào)它是一个端到(dào)端的大(dà)模型,它把感知信(xìn)号变成一个控制序列。智驾是一个非常有代表性的,它是一个从数(shù)字世界走向物理世 界一 个真(zhēn)实的应用场景。所以,我觉得FSDV12它的成功,意义不仅(jǐn)在于智驾本身(shēn),这(zhè)套方法论(lùn)可以认为是为将来的智能设备如何和大模型相结合,更好的去探索物理世界(jiè)指(zhǐ)明了一个方向(xiàng)。

第三件事情(qíng),上周的O1,我对它 的理解,它(tā)第一次证明了语言模型其实也可以有人脑(nǎo)的慢思(sī)考,就是系统2的能力(lì)。而我们觉得系统2的能力它是归纳世界所必备的一个前提条件,是一个基础(chǔ)的(de)能力。所以,我们一直认为(wèi),AGI的演进路线可以分为模拟世界、探索世界、最后归纳世界。而(ér)过(guò)去几个月的时间我们看(kàn)到GPT4O、FSD V12和O1分别在这三个阶段或者(zhě)这三个方向上都取得了非常大 的(de)突破,而且更重要的是为将来的发(fā)展也指明了一个方向。所(suǒ)以无论是从数量(liàng)还(hái)是质量上来说,都是可圈可点。

杨植(zhí)麟:我觉得整体也是属于加速发展的阶(jiē)段,核心可以从两个维度来看(AI的发展),第一个维度是纵向的维度,也就是说你 的智商是一直在提升的,这个主要现在的(de)反应方式还(hái)是你去看文本模型能做到多好。第二个是横向(xiàng)的发展。除了文本模型之外,刚才姜总(zǒng)提到(dào)的,也会有各种不同(tóng)的(de)模态,这些模(mó)态会做一个横向的(de)发(fā)展,更多的让你这个(gè)模型(xíng)具备更(gèng)多的技能,能够去完成更多的任务,然(rán)后同时跟(gēn)纵向的智商的发展相结合。

   在(zài)这两个维度上,我(wǒ)觉得都看到了非(fēi)常(cháng)大的进展,比如说在纵(zòng)向的维度上(shàng),其实(shí)智商是一直在提升的,比如说(shuō)我们如果去看竞赛数(shù)学能力,去年是完全不及(jí)格,到今年已经能做到90多分,像(xiàng)代码基本上也(yě)是一样,能够击败(bài)很多专业的编程选手,包括因此也产生了很多新的(de)应用机会,比如说像现在(zài)比较流行的类似(shì)curser这样的,通过(guò)自然语言直接去写代码的这样的软件也越(yuè)来越普及,这是技术发(fā)展的(de)结果。包括(kuò)我们去看很多具体的(de)技术指标,现在的语言模型能支持的上下文的长度,我(wǒ)们如果去年这个时间点去看的话,大部分的模型都只能支持4K-8K的,但是从 今天(tiān)去(qù)看你会发现4K-8K已(yǐ)经是非常低的数了,128K是一个标(biāo)配,已经有很多可以支持1M甚至10M的长(zhǎng)文本的长度。所以,它(tā)这个其实也是后面你(nǐ)的智商不断提(tí)升(shēng)的一个很重要的基础。

   包括最近的很多进展,它不光只是说Scaling,Scaling还是会持续。而且很多进展也来自于你的后训练算法(fǎ)的(de)优化,来自于你数据的优化,这些优(yōu)化它的周期是会更短的。所以,这个周期更短导致(zhì)你整体AI发展节奏(zòu)也会进一步加快,包括我们最近在数学上看到的很多进展,其实也(yě)是得益于这些技术的发展(zhǎn)。

 横向上当然也产生了很(hěn)多新(xīn)的突破,当然Sora可能是影响力最大的,在这里面(miàn)完成了这个视频(pín)生成。包括最近(jìn)有(yǒu)特别多新的产品和技术出(chū)来,现在你(nǐ)已经可(kě)以通过一个论文直接生成基本上你看不出来是真(zhēn)是假的双人的对话。类似这样的不同模态(tài)之间的转化、交互和生成(chéng),其实(shí)会变的越来越成熟。所(suǒ)以,我觉得整体是在(zài)加速的过程中。

朱军(jūn):AGI这里面大家最关注的还是大(dà)模型,刚才(cái)两位也讲了去年包括今年大(dà)模型 也发生了很(hěn)多重要的(de)变化。整个的进展我是非常同意刚才(cái)讲 到的,在加快。

   另外,我想补充一点,大家在解新的问题,这个速度也在加快 了,我们说它的Leaning  corve在变的更陡。原来(lái)如果你看语言模型(xíng),可能从2018年最早去做的,到去年以(yǐ)及到今年,大(dà)家走了五六年的路。但其实从(cóng)去(qù)年开始,上半年大家还是关注语言模型,下半年在讨论多模态,从多模态理解再到多模态生成。我们再回(huí)过(guò)头看的话,比(bǐ)如说图像(xiàng)或者视频,其(qí)实视 频最明显,从今年的2月(yuè)份,当时很多人被(bèi)震(zhèn)惊到了(le),因为它很多(duō)没有公开,就说怎么去突破(pò)?有很多的讨(tǎo)论。但事实上(shàng)我们现在看到(dào)这个行业里面,大概用了半年的时间,已经做到了可以去(qù)用(yòng),而且达到了一(yī)个很好的一(yī)些(xiē)效果,在时(shí)空一致性上。所以大 概(gài)走了半年的路(lù)。

  所以这里面加速 的一个(gè)最核(hé)心的原因,现在大家对(duì)这种路(lù)线的认知和(hé)准备(bèi)上,达到了比较好的程(chéng)度(dù)。当然我(wǒ)们(men)还有物理的条件,比如说像云的设施,计算的资源的(de)准备(bèi)上,不像ChatGPT当时出来(lái)的 时(shí)候,大家当时更多(duō)的是一(yī)种不知(zhī)所措,我觉得很(hěn)多(duō)人可能没准备好去接受这个,所以中间去花了很长 时间去学习(xí)、去掌握这个。当我们(men)掌握了之后再发现这个进展的话,再去做新的问题,其实它的速度(dù)是(shì)越来越快(kuài)的。

当然,这个(gè)可 能(néng)不同的能力它再辐射到实际(jì)的用户的角度来说,有一些(xiē)快慢之分,当然(rán)也分行业。这个可能在广泛的角度来说,大家可 能没感(gǎn)知 到。但是(shì)从(cóng)技术来说(shuō),其实这个进展(zhǎn)我感觉是曲线越来越陡,而且(qiě)可能对后边我们要预测(cè)未来的话,包括向更高阶的AGI发展,我(wǒ)是比较乐观的,可(kě)能会看到比之前更快的速度(dù)去实(shí)现了(le)。

主持人:最近OpenAI刚刚出 的O1的新的模型,也是在专(zhuān)业人群里形成了非常多的影响,现(xiàn)在还在很丰富的(de)讨论。怎么评价O1进 展(zhǎn)的(de)意义?

 姜大(dà)昕:确实(shí)我看到一些非共识,有些人(rén)觉得意义很大,有(yǒu)些人觉得也(yě)不过如此。我觉得(dé)大家如果去试用O1的(de)话,可(kě)能第一印象是(shì)它的推理 能力确实非常惊艳,我们自己试了很多Query,觉 得推理能(néng)力确实上了一(yī)个很大的台阶。

 然后 我们去思考它背(bèi)后的意义(yì)究(jiū)竟是什么,我能想到的有两点:1.它第(dì)一次证明了Large language model,就(jiù)是语言模型(xíng),它 可以(yǐ)有人脑的慢思(sī)考的能力。它和以前(qián)GPT的范式,或者GPT的 训练(liàn),它叫,Predict next Token,它只要这样训练了,就注定了它(tā)只有system 1的能力。而O1是用了一个强化学习的训练框(kuāng)架,所以带来了系统2的能力。

   系统1的体现,它是一(yī)个直线性思(sī)维(wéi),虽然我们看(kàn)到GPT4有时候可以把(bǎ)一(yī)个复杂的问题拆解成很多步(bù),然(rán)后分步去解决,但它还是直线(xiàn)性(xìng)的。系统(tǒng)1和(hé)系统2最大的区别(bié)在于,系统2能够去探(tàn)索不同的路径,它能够自我去(qù)反思、自我(wǒ)去纠错,然后(hòu)不断的试错(cuò),直到找到一个正确的途(tú)径,这是系统2的特点。这次O1,它是把(阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”bǎ)以前的模 仿学习和强化学习结合(hé)起来了,使得一个模型(xíng)同时有了人脑系统1和(hé)系统2的能力。所以我(wǒ)觉得从(cóng)这(zhè)个(gè)角度来看,它(tā)的意义是(shì)非常大的。

  第二,它带来了一个Scaling Law的新(xīn)方向,我理解O1试图回答的一个问题,就是说RL(强化学(xué)习)究竟怎么去泛化(huà)。因(yīn)为强(qiáng)化(huà)学习(xí)它不是第一个,DeepMind一直走的是强化学习的路线,从AlphaGo到AlphaFold到(dào)AlphaGeometry,其 实它(tā)在强化学习上是非常厉害的。但以前强化学(xué)习(xí)的场景都(dōu)是会为特定场(chǎng)景 去设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。所以这次O1的出(chū)现,它是在RL强化学习(xí)通用性和泛化性上了一个大的台阶,而(ér)且它scale到了一个很大的规模,所以(yǐ)我把它看(kàn)成scaling带来新(xīn)的技术范式,我(wǒ)们(men)不妨称之为RL Scaling。而且我们看到有意(yì)思(sī)的(de)一点,O1并没有到很成熟的阶(jiē)段,它还是一个开端,但是(shì)这个恰恰让人(rén)觉得(dé)非常的兴奋(fèn),这(zhè)就等于OpenAI跟我们说,我找 到了(le)一(yī)条上限很(hěn)高的道路,而且你仔细去思考它背(bèi)后的方法,你会相信这(zhè)条路实际上是(shì)能(néng)走得下去。所(suǒ)以O1从(cóng)能力上来讲,我觉(jué)得(dé)它展示了Language model可以有(yǒu)系(xì)统2的能力(lì),从(cóng)技术上来说它带来新的scaling范式,所(suǒ)以(yǐ)它的意义还(hái)是非常(cháng)大的。

朱军:我的看法,它是代表着一(yī)个显著的(de)质变(biàn)。我们也对AGI大概(gài)做了一些分级,学术(shù)界,包(bāo)括产(chǎn)业界(jiè)大(dà)家有L1-L5的分级。其实L1的话相当(dāng)于聊天机器人(rén),就是像ChatGPT等,之前大家做了很多对话的。L2叫推理者,实际(jì)上可以做复杂问题深度思考的推理。L3叫(jiào)智能体 ,回应吴总讲的“数(shù)字世(shì)界”走向“物理世界”,我要去(qù)改变的,我要(yào)去交互的。L4是创新者,它要去发现、创造一些新的东西,或者发现一些新的知识。L5是组织者(zhě),它可以去协同,或者某种组织方式更高效来运转,这是大家对于AGI L1-L5的分级(jí),当然每一(yī)级也有(yǒu)narrow和general的区分,在某些(xiē)Task上(shàng)展示出来。比如O1在(zài)L2的narrow场(chǎng)景下,在(zài)一些特定任务下已经实现了人类达到很高阶的智能水平。我觉得从分级角度来看,它确实代表着整个行业巨大(dà)的进步。

   刚才技术上 姜总也讲了(le),它将过去强化学习或者其(qí)他(tā)一些技(jì)术,其实在研究里已经做(zuò)了很多东西(xī),但(dàn)实际上它在大规模基座模型上能够做(zuò)出来的效(xiào)果,这还是从工程上,或者从(cóng)实现上来说对行业很大的触动。当然它也(yě)会错发(fā)或者激发出(chū)来很多未来的探索 ,或者实际的研发,可能会走向从narrow到general的跃迁。刚(gāng)才讲(jiǎng)到速度,我相信它会很快,因为(wèi)大(dà)家已经有很多准备了,我也期待这个领域里更多将L2做得(dé)更好,甚至(zhì)更高(gāo)阶的能实现。

      杨植(zhí)麟:我觉得它的意义确实是(shì)很(hěn)大,主要意义在于(yú)它提升(shēng)了AI的上限。AI的上限是说,你现在去提升5%、10%的生(shēng)产(chǎn)力,还是说10倍的GDP,我觉(jué)得(dé)这里最重要的问题就是你能不能通过强化学习进一步(bù)scaling,这是完全提升了AI上限(xiàn)的东西(xī)。我们如果看AI历史上七八十(shí)年的发(fā)展,唯一有效的就 是(shì)scaling,唯一有效的就(jiù)是加更多的(de)算力。但在O1提出之前(qián),可能也有很多人在研究(jiū)强化学习,但都没(méi)有一个(gè)非常确切的答(dá)案,强化学习如果和大(dà)语言(yán)模型,或者和training processin这些东西整合在一起,它(tā)能否持 续提升。比如(rú)GPT4这一代模型的提升(shēng),更多是确定性的提升,我在一样范式下把规模(mó)变得更大,它肯定(dìng)是确定性的提升。但是(shì)我觉得O1的提升并不是(shì)一个完全(quán)确定(dìng)性(xìn阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”g)的(de),这样的提升。

   所(suǒ)以(yǐ)在之前大家(jiā)可能会担心现在互联网上大部分优质数据(jù)都已经被 使用完了(le),然 后(hòu)你可能继续使用这个数据也没有更多数据可以挖掘,所 以(yǐ)你(nǐ)原来的范式(shì)可能会遇到问题。但AI有效(xiào)了,你又需要(yào)进一步scaling,那(nà)你这个scaling从哪里来,我觉(jué)得很大程度上解(jiě)决了这个问题,或者(zhě)说至少证明了它初步可行(xíng)。初步可行的情况下(xià),可能我们(men)会有越来越多人投(tóu)入(rù)去做(zuò)这个事情,最终你要做到10倍GDP的最终效果(guǒ),它(tā)完全有可能,我觉得(dé)是一个很(hěn)重(zhòng)要的开端。

   我觉得对很多产业格局上,或者对于创业公(gōng)司(sī)新(xīn)机会来说也会发生一些变化。比如我觉(jué)得这里很关键的一个点,你的训练和推理 算力占(zhàn)比是(shì)会发生很大的变化,这个变化我(wǒ)不是说训(xùn)练的算力会下 降,训练的算 力还会持续提(tí)升。与此同(tóng)时,推理(lǐ)的算力提升会更快,那(nà)这个比例的变化本质(zhì)上会产生(shēng)很多新的机会,可(kě)能这里很多(duō)新(xīn)的创(chuàng)业公司(sī)的机会(huì)。一方(fāng)面,如果你达到(dào)一定的算力门槛,它(tā)可以在这里做(zuò)很多算法的基础创新,那(nà)你可以在基础的(de)模型上甚(shèn)至取得(dé)突破(pò),所以(yǐ)我觉得这个很重(zhòng)要。

对于算力相对小一点的公(gōng)司 ,它(tā)也可以(yǐ)通过后训练的方式,在一(yī)些领域上做到一些效果(guǒ),这里也会产生更 多的产品和(hé)技术机会,所(suǒ)以我觉得整体也(yě)是打开了(le)创业相关(guān)的想象空间。

主持 人:这一波AI新的(de)变化,接 下来会(huì)对AI相关的产品带来什么(me)样(yàng)的连锁反应,这个变(biàn)化如何发生?

杨(yáng)植(zhí)麟:这是很好的问题,我们现(xiàn)在还是处于产业发(fā)展的早期(qī)。产业发展的早期(qī)有一个(gè)特点(diǎn),还是技术驱动产品会更多(duō),所以很多(duō)时候你(nǐ)的产品会(huì)去看当前的技术是怎么(me)发(fā)展,然(rán)后把它最大化的价值提取出来,所以这个问题首(shǒu)先非常好,可能我们根据这个(gè)新的(de)技(jì)术进展,再返过来推一下现在产品应该做什(shén)么(me)变化。

   现在的技术发展有几个点:

   一个,我(wǒ)觉得这里面会有 很(hěn)多探索新的(de)PMF(product market fit)的机会。我觉得PMF指的是(shì)两个东西(xī)的平衡:一方面是由于你需要做这种系统(tǒng)2的(de)思考,导致你的延时增加。对(duì)用户来说,延时增加是一个负向的体验,因为所有用户都希望我尽快 能拿到结果;第二个(gè)点,它确实能(néng)提供(gōng)更好的输出,能拿到更好的结果,甚至能完成一些跟更复杂的任务(wù)。等于说新的PMF产生的过程或者探索的(de)过(guò)程(chéng),其实是要在在延时增长的(de)用户体验下降和最后结果产(chǎn)生质量更高的用(yòng)户价值的上升之间找到一(yī)个平衡点。所以你要(yào)让这个增量的价值是大(dà)于体(tǐ)验(yàn)的损失,我觉得这个很重要。所以在这里面更高价值(zhí)的场景,特别是生产力的场景(jǐng),我觉得会(huì)率(lǜ)先有一些东西出来。因(yīn)为如果(guǒ)你是(shì)一个娱乐场景,大概率你(nǐ)可能很难忍(rěn)受这种延时 上的增加。所以,我觉得这是比较重要的(de)一点

   产品形态上,我觉得也会发生一些变化。因为你(nǐ)引入这种思考的范式,所以现(xiàn)在同步及时的类(lèi)似(shì)聊天的产品形态(tài)一定(dìng)会发生 变化(huà)。因为(wèi)以后的(de)AI,可(kě)能它不光是现在(zài)思(sī)考个20秒、40秒,它已经可能要思考或(huò)者调用各种工具,它可(kě)能执行(xíng)分钟级别、小时级 别甚至天级别的任务,所以你的产(chǎn)品形态上可能会(huì)更接近(jìn)一个人(rén),它(tā)更接近(jìn)“助理”的(de)概念,帮你完成异步的(de)任务。这里面(miàn)的产品形态设计,我觉得(dé)可能也会发生很大的变化。所(suǒ)以这里面,我觉得新的想(xiǎng)象空(kōng)间蛮大的。

 朱军:我觉得大(dà)模型或者大规(guī)模预训练的(de)技术代表(biǎo)着(zhe)整个范式(shì)的变化,前(qián)面(miàn)也聊到很多,不(bù)光是语言,到多模态(tài),到(dào)具身、空间智能,中间还是想(xiǎng)我(wǒ)怎么去让智能体能够有交(jiāo)互,能够在这个过程中来学习。从智能的角度来看,包括从AGI发(fā)展(zhǎn)上,它是一个必然,因为决策、交互实际上是我们说的智能里面非常(cháng)核心的能(néng)力的体现。我们每时每刻其实都在做决策 ,我们面对的是一个未知(zhī)的开放环境(jìng),所以对于智能来说,它的发展路径上,在 整个规划里面大家也是朝着这个方向走。

   现在所(suǒ)有这些进(jìn)展,包括刚(gāng)刚讨论很多(duō)的O1,包括做视频生成,或者3D,这些(xiē)东西大(dà)家最后要指向的有两个方(fāng)向:

  一个是给消费者看到的这些数(shù)字内容,就是(shì)说看上去很好看、很自然,能够讲故事,能够让大家参与讲故事、能(néng)够交互。这(zhè)肯定是一个很重要的方向(xiàng),在数字内(nèi)容(róng)上。

   另外一个方向(xiàng),指(zhǐ)向实体、指向物理世界(jiè)。

现在可能最(zuì)好的一个结合点就是和(hé)机器人来结合在一(yī)起。其实现在已经有好多例子在展示出来,我们也看到很好的一些进展,比如(rú)用了预(yù)训练的范式,如何让机器人的能力具有通用性(xìng);比如我们自己实验室做多的例子,像四足机器人,过去大家(jiā)在不同场地上(shàng),你要让它跑起来都需要用很多的人工调参(cān)。但现在你在一个仿真(zhēn)环境(jìng)里面,或(huò)者用(yòng)一些AI的方式来生成一些合成数据,让(ràng)它在里(lǐ)面大规模地(dì)训练,训练出来的策(cè)略可以灌到机器人上,它相当于换了一副(fù)大脑 ,可(kě)以让它的四肢(zhī)更好地协同起来,同(tóng)样一套策略可(kě)以做各种场地的适应。其实这(zhè)还是一个初步的例(lì)子,现在大(dà)家也在关注(zhù)更(gèng)复(fù)杂(zá)的控制决策,就像空间 智能、具身智(zhì)能。

   就(jiù)像刚 才讲到智 能(néng)体是AGI的L3,所以现在用到L1、L2的进展(zhǎn)之后,后(hòu)面肯定会提升到L3,让 机(jī)器人更好地做它的(de)推理规划,然后更好(hǎo)更高(gāo)效地和环境做交互,更好地完成我(wǒ)们的复(fù)杂任(rèn)务。因为现在很多时候任务相对来说分散,给它定义成一个简化的。未来,我们(men)很快可以看到它可以(yǐ)接受复杂的指令、完成复杂(zá)的任务,通过它(tā)内嵌的思维链或者过程的学习方式,能够(gòu)完成复(fù)杂任务。所以到那个时候,智能的能力又有一个很巨 大的提升。

主持人(rén):虽然意料未来都很难,至(zhì)少心里 会有一个期待,比如在(zài)下一个18个月(yuè)里,我们希望看到什(shén)么(me)样的进展,在AGI的领域里?

朱军:因为现在整个(gè)是一个(gè)加速,其实很多时候我们预测通常会过于保守。如果回到你的问题,我预想未来18个(gè)月(yuè)可(kě)能比(bǐ)较令人兴奋的一个进展,我(wǒ)希望(wàng)看到AGI的 L3已经基本上实现。至少在智能体,比如我们说的世界模型的创建生成、虚实融(róng)合,至少在一些特定场景下的决策能力的巨大的(de)提升。其(qí)实它会利用我们今天讲到的推理、感知等等。

因为我前一段时间领了一个任务,就是对(duì)L4做专门的分析,就是到底我们(men)缺什么?做了L4的(de)。其实最后调研或者是分析(xī)下来,你(nǐ)会发现如果我(wǒ)们要做科学发现或者做创(chuàng)新,它需要的那些能力,可能目前(qián)是散(sàn)落在各个角落里面,当然现在可 能还缺一(yī)个系统怎(zěn)么把这些东西集成在一起,给(gěi)它(tā)做work。所以我觉 得如果更激进一点(diǎn),我甚至觉(jué)得未来(lái)18个(gè)月可能在(zài)L4上也会(huì)有显著(zhù)的进(jìn)展。当然这里面(miàn)我讲的是(shì)严(yán)肃的科学发现,其实L4还有一些 创(chuàng)意的表达上(shàng),目前我们在某(mǒu)种意义上(shàng)已(yǐ)经达到了,比如说艺术创造、图生视频,一定程度上它已经(jīng)帮大家放大你的想象,或者让你(nǐ)的想象可以具象化。所以,我(wǒ)对整个于是还是比较乐观的,我觉得至少L3或者未来L4有一些苗子了 。

到今年年底,希望将我们本来做的视频模型能够以更加高效、更可控的方(fāng)式提供给大家。

   我解释一下高效和可控 。可控,比(bǐ)如你想表达(dá)一个故事,不是简单地将一段话或者(zhě)一个图片给它动起来,我们是希望你可以(yǐ)连续地讲,而且它不光是人的一致(zhì)性,还包括物体等各种主题的一致性,还包括交互性;高效,它一方面解决对算力成(chéng)本的考量,因为你如果想要服务很多人,让(ràng)大家用的话,首先你成本要降下来,不然这(zhè)个本身(shēn)就是(shì)烧钱,一(yī)直赔钱。另外一个更重要 的(de),还是从体验(yàn)上。就使用者来说,因为他想表达自己(jǐ)的创意,他可(kě)能需要(yào)多次(cì)和系统来交互,一方(fāng)面是验证,另外一方面是启发,所以这(zhè)个过程也需要你的模型系统能够比较高效,比如说(shuō)终(zhōng)极目标达到实时,能够让大家快速尝试(shì)。等(děng)到(dào)这个(gè)阶段,我相信大家的用户体验,包括(kuò)用户量都会有一个巨大的提升,这是我们今年想重点突破的。当然长远的话,可能明年18个(gè)月(yuè)会走向实体的虚实融(róng)合的场景了。

   杨植鳞:我觉得(dé)接(jiē)下来最重要的,可能是开放 性(xìng)的强化学习,比如说你(nǐ)在产品(pǐn)上跟用户交互,在一个真实的环境里面完成任务,然(rán)后(hòu)自己去进化。当然,我觉得O1一定程度上说明这个方向有比之前更强的确定性,我觉得这个会是一个重要的里程碑,也是(shì)AGI路上现在仅甚唯一的一(yī)个重要问题了。所以,我觉得这个会很关键。

   张(zhāng)鹏:对,18个月已经是很长了,如果看看看过去 18个月走的(de)路(lù)。你未来3个月 ,有什么可以透露的吗?

   杨植鳞:我们还(hái)是希望能够在产品和技术上持续地创新,至(zhì)少可能在一(yī)两个重要领域(yù)能够做到世界最好,但是(shì)有(yǒu)新的进(jìn)展会尽(jǐn)快跟大家分享 。

   姜大 昕:第一,我也很期待强化学习能够进(jìn)一步泛化。另外一个方向其实我也(yě)很期待,应该说期待了(le)很久就是(shì)在(zài)视觉领域的理(lǐ)解(jiě)和生成一体 化的事情。因为在文字领(lǐng)域,GPT已经做到了理解生成一体(tǐ)化,但(dàn)遗憾的是在视觉领域,这(zhè)个问题当然不是遗憾,它非常难。所(suǒ)以在目前为(wèi)止,我们看到的视觉的理解和生成,这两个模型是分开的。即使像刚才(cái)说的多模融合,如果大家仔细看GPT4,它其他模态都解决了,它唯独不能生成(chéng)视频,所以这是一个悬而未决的事情。

  它为(wèi)什么很重要呢?如果我们解决了(le)视(shì)频理解生成一体化,我们就可以彻底建立一个多模(mó)的世界模型,有一个多模的世界模型以(yǐ)后,可以帮助我们真(zhēn)正产(chǎn)生非(fēi)常长的视频,也就是说解决Sora(音译)目前的技术缺陷。还有一个,它可(kě)以和具身智能相结合,它可以作为(wèi)机器人的大脑去帮助智(zhì)能体更好地探索物理世界,所以我也是非常期待(dài)的。

   张(zhāng)鹏:你未来年底 之前,有什么我们值得(dé)期待(dài)的你的进展?

   姜大昕:我(wǒ)也是期待一(yī)方面模型和技(jì)术的(de)进步,另(lìng)外一方(fāng)面产品能带给用户(hù)更多更好的体验,其实阶跃有一(yī)款产(chǎn)品叫(jiào)“跃问”,在上面,用户可以体验(yàn)我(wǒ)们最新的万亿参数的模型,它不光(guāng)是理(lǐ)科很强(qiáng),而且它的文 学创作(zuò)能力也很强,经常给大家带来(lái)一些惊喜(xǐ)。同时(shí),跃问上还有一个新的功(gōng)能叫“拍照(zhào)问(wèn)”,我们看到用户经常(cháng)拍张照片(piàn)去问食物的卡路里,去问宠物的心情,问一(yī)个文物的前世今生,包括(kuò)Mata眼镜的发布,还有(yǒu)Apple Intelligence,它今年都突出了视觉交(jiāo)互 的功能。所以我们在跃问上(shàng)也有体现,而且我(wǒ)们(men)会努力一(yī)步步把这个功能做得越来(lái)越 好。

未经允许不得转载:橘子百科-橘子都知道 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”

评论

5+2=