大模型,何时迎来大转折?
“真正的变革是,什么时(shí)间点有一个模型 可以把错误率降低到个位数。”
在经历了上半年密集(jí)的(de)技术和(hé)产品发布(bù)后,下半年的AI圈显(xiǎn)得有些平静,不再(zài)有如Sora这(zhè)样引发轰动(dòng)的产品,在(zài)GPT-4o之后,行业引领者OpenAI也 迟迟没有大动作。不少 行业人士认为,技(jì)术的迭代放缓了(le)。
在亚布力(lì)企业家夏(xià)季年会上,猎豹移动董事(shì)长傅盛提出一个观点,AI浪潮已(yǐ)出现泡沫迹象,从大模型出现在大(dà)众视野(yě)以来,已过去近一年的时间(j大模型,何时迎来大转折?iān),但(dàn)最顶级大模型的模型没有明显提(tí)升。“客观来说,谁(shuí)家(jiā)大(dà)模(mó)型有什(shén)么优势,基(jī)本尚(shàng)属‘一家之言’,用户用起来没有感觉到(dào)太大差别。”他认为,当前大模型同(tóng)质化严重(zhòng)。
在与MiniMax创始(shǐ)人闫俊杰(jié)的交流中,关于(yú)瓶颈与转折点(diǎn)他提到(dào),现(xiàn)在所有模型错误率都是20%的量级,“真(zhēn)正的变革是,什么(me)时(shí)间(jiān)点有一个模(mó)型可以把(bǎ)错误率降低到个位数,这会是一个非常本质的变化。”未来大模型能否成功,傅盛也认(rèn)为,大模(mó)型的天花板能否再上一个台(tái)阶很重要。
“至暗时刻觉(jué)得技术很重要”
这一轮的生成式AI是一场掀起巨大浪潮的社会生产力革命,傅(fù)盛认为,这波浪潮今天已(yǐ)经呈现出明显的泡(pào)沫迹(jì)象。
何(hé)为“泡沫”,傅盛认为,一方面是(shì)模型(xíng)能力(lì)没有明显提升(shēng)。“在一个以科技为核心的技术浪潮中,这是不太正 常(cháng)的。”每次(cì)写不同的东西,傅盛都会 用好几(jǐ)个大(dà)模型互相比较,“有时候这个大模型(xíng)更好用,有时那个更好(hǎo)用,当前大模型的同质化很严重。”
其次,说了这么久人工智能,“但真正的Killer APP(杀(shā)手级应用)并没有出现,不仅在C端没有出现,B端也未能出现。很多行业大模型(xíng)都说(shuō)自己(jǐ)有(yǒu)不少应用,但真正提效的并(bìng)不多。”傅盛说(shuō),想要将大模型(xíng)真正变成一个(gè)明显(xiǎn)能提效的应用(yòng),还很有难度。
泼了盆冷水(shuǐ)的(de)同时,傅盛补充表示(shì),泡(pào)沫不见得(dé)会使大模(mó)型(xíng)发展(zhǎn)崩塌,因为有点泡沫很正常,互联网早期也(yě)曾出现泡沫。
在 今(jīn)年6月(yuè)演讲时,金沙江(jiāng)创投主管合伙人朱啸虎曾谈及GPT-5一直(zhí)“跳票”时表示,“硅谷也高度怀疑GPT-5还有没(méi)有,即使出来在核心推理能力上还(hái)有没有显著的提高(gāo),这是(shì)很不确定的东西,今年年底是一个验金石。”他判断(duàn),大模型演化速(sù)度有放缓趋势,而迭代曲线(xiàn)放缓以后,应用层的机会就会更多。
不过,在(zài)波形智能创始人(rén)姜昱辰看来,大模型技术迭代其实并没(méi)有放缓,而(ér)是保持着2018年以来的增速,那一年基于Transformer架构的大规(guī)模语言模(mó)型预训练开始流行(xíng)。从博士的自然语言(yán)处理研(yán)究到大模型创(chuàng)业,姜昱(yù)辰更早开始经历这(zhè)轮大(dà)模(mó)型技(jì)术(shù)演化的(de)进程。
“大家之所以有(yǒu)这样的感觉(技术迭代放缓)是因为大众是在2022年底、2023年初第一次看到这个技术,做了(le)很多短时间的 learning和追赶,追赶当然比较快。”姜昱辰对第一财经表示,把OpenAI做出来的技(jì)术学一遍,不叫“技术迭代(dài)”。
虽然行业此前有一句“没有应用的大模型一文不值”广为传播,但在(zài)很多从业(yè)者看来,大模型的(de)技(jì)术同样重要,因为更好的应用一定建立(lì)在更好的技术之上,技术和应用是一个(gè)相互转化的串联关系。
在MiniMax刚刚过去的伙伴日活动上,闫(yán)俊(jùn)杰在讨论中提到,“至暗(àn)时(shí)刻会觉得技术很重要。”
很多时候做技术时,并没有真正意(yì)识到技术为什么重要(yào)。闫俊杰举例表示,用户感受到的东西可能来自于一些产 品细节,或者一(yī)些(xiē)品牌,技术本身是好多个环(huán)节在一起,尤(yóu)其在繁荣时期(qī),可能分(fēn)不(bù)清什么是主,什么(me)是次(cì),“当在某些时间点(diǎn)遇到瓶颈的时候,抛(pāo)开所(suǒ)有的表象东西,会意识到(dào)技术才是最终提升的来源。”
“技术做不好(hǎo)的时候,发现所有东西都是问题(tí),当 技术(shù)做好了,似乎所有问题都被掩盖了,”闫(yán)俊杰表示,技术(shù)是一家(jiā)科技公司(sī)最核心的要素这件事,尽管已(yǐ)深刻意识到,偶(ǒu)尔还是在继续犯(fàn)错(cuò)误(wù),“这个是我在多次至暗时刻里最(zuì)有共性的一件事。”
做技(jì)术(shù)也是一件非常奢侈(chǐ)的事,“如果(guǒ)看一眼我们每(měi)个(gè)月的账单还是会非 常心疼的。”在采访 中,说到这(zhè)话时(shí),闫俊杰几次看向了MiniMax技术总(zǒng)监韩景涛,也(yě)就是“账单的制造者”。
大模型,何时迎来大转折?e="font-L"> 因为做技术可能会失败,研发投(tóu)入很大,闫俊杰此前很多时(shí)候会想要不要走点捷径,但实践经验会证明,走捷径就会被“打脸”,“这个(gè)事在我这发生可能超过十次了(le)。”
“一个 东西要实验三次才(cái)能成(chéng)功,第三次实验成功的时候,会想前面两次是不是可以不用(yòng)做,就像吃包子吃三个(gè)会吃饱,就会想是不是前两个不用吃是一(yī)样的。”闫俊(jùn)杰表示,这是做技(jì)术时一个比较容易犯(fàn)的错误。
在(zài)各种关(guān)于模型技术细节的排行榜上,或许GPT-4o的(de)跑分不常出现在第一,甚至会在中间,但在MiniMax基于真实客户的(de)测试(shì)集中,OpenAI的GPT-4o是遥遥领先(大模型,何时迎来大转折?xiān)的。
在(zài)大模型时代,如何判断技(jì)术的好坏,大众很迷(mí)惑,企业同样觉得(dé)很(hěn)难,但这个点很重(zhòng)要,因为技术的评价标准会决定模型的迭代方向,如果指标本身不对迭代方向(xiàng)可能就错了(le)。
闫(yán)俊杰提到,MiniMax目前(qián)的一个办法是,基于MiniMax开发平(píng)台的3万多个开发者和付(fù)费客户,在他们的场景上(shàng)构建一个真实使用的(de)测(cè)试集,有(yǒu)些客户对他们的场景非常看重,要求保证产品(pǐn)的效果,基 于这些客户真实(shí)使用的评测是较为(wèi)客观的。
“这个测试(shì)集上所有国产化模型相比GPT-4o都相(xiāng)差较多(duō),其(qí)他排行榜(bǎng)基(jī)本上GPT-4o都要排到中间去了,但是(shì)在我(wǒ)们的排行榜上确(què)实GPT-4o排(pái)在(zài)最靠前。”闫俊杰提到(dào),国内所有模型都与GPT-4o有本质的差距,且越难的问题差距越大。按照这个评估方式,国产模(mó)型的(de)提升空间还很大。
静待下(xià)一(yī)转折点
大模型的下一个转(zhuǎn)折点在哪里(lǐ)?众多创业者有不同的答案,有人认为是错误率的降低,有人觉得是个(gè)性化的模型,有(yǒu)人认为关键在于(yú)小算(suàn)力训练出(chū)大模型,背(bèi)后或许意味着(zhe)架 构的改进。
朱啸(xiào)虎曾提到,今年的大模型本(běn)身还是(shì)有(yǒu)很多(duō)错误,且出来的结果不可控,今天(tiān)落地最困难(nán)的是,场(chǎng)景下怎么解决错(cuò)误问题、可控(kòng)问题。
现在所(suǒ)有的模(mó)型错误率(lǜ)都在20%左右,即两位数的(de)错误率,有时惊艳,有时不靠 谱,闫俊杰认为,这也(yě)是制(zhì)约模型处(chù)理复杂(zá)任(rèn)务的原因,“真正的变革是,什么时间点有一个模型可以将错误率降低到(dào)个位数。”这是(shì)能增加用户使(shǐ)用深度的(de)核心手段。
复杂任务(wù)往往需要(yào)多个步骤(zhòu)“相乘”,较高的错(cuò)误率导致失败(bài)率的(de)指数(shù)增加。闫俊杰表示(shì),即便是(shì)GPT-4这(zhè)样的模型也无法支持非常灵(líng)活(huó)的Agent(智能(néng)体),这并不是因为Agent框架写(xiě)得不(bù)够(gòu)好,产品(pǐn)做得不好,最根本的原因是模型本身不 够(gòu)好(hǎo)。
但现在(zài)可以看到的(de)是,每家公司有了(le)算力,无论是OpenAI、谷(gǔ)歌(gē)还是Meta,都(dōu)在加码算力。Meta CEO扎(zhā)克伯格曾在社交媒体(tǐ)上表示,要建立一个大规模的计算基础设施(shī),到(dào)2024年底,这一设施将包括35万张英伟达H100显卡,业界预估这或(huò)许将耗费近百亿美(měi)元。
算法也在进步,OpenAI在2023年只能(néng)做出来GPT-4,但2024年能做GPT-4o,虽然性能差不多,速度快了(le)近10倍。
“计算量多了不止10倍,算法也快了(le)10倍时,没有道(dào)理说训(xùn)练不出(chū)来一(yī)个更好的模型。”闫俊杰提到,“如果Scaling law(尺度定律)是对的,未来这个模型一(yī)定(dìng)会出(chū)现 ,标志就是个位数(shù)的错误率。”
在傅盛看(kàn)来,降低错误率同样重要。“今天的大模(mó)型有20%-30%的知识幻觉,而且(qiě)‘它不知道 自己不知道’,这(zhè)是在企业应(yīng)用(yòng)上非(fēi)常重要的一大卡点。”想要真正落地(dì)一个应(yīng)用,得用大量工程化的手段(duàn)去解决以前通用人工智能认为它能干的活,这中间是有差距的。
问及大模型技术(shù)的下一个转折点,姜昱辰给了(le)一个(gè)不一(yī)样的答案,她认为是(shì)“个性(xìng)化”的技术。
“ToB的创业者会(huì)觉得错误率降低很重要,因为企业级、工业级场(chǎng)景中要(yào)的是极(jí)高准(zhǔn)确率,而在消费场景中,要的是(shì)‘懂你’的个(gè)人助手。因此,对ToC创业者来说,个性化技术更重要。”对于不同的答案,姜昱辰解释,ToB和ToC不同的场景下会有不同的感知。
从难度上来(lái)说,大(dà)模型幻觉是概率(lǜ)模型固有的(de),不容易解(jiě)决,但个性化大模型确实(shí)是技术层面可行的。姜昱辰提(tí)到(dào),波(bō)形智能目(mù)前在做的是(shì)这个方(fāng)向(xiàng),主要的难点是算法,中间需要知道的是,这样(yàng)的个性化生成式模型需要什么(me)用(yòng)户信息,如何用(yòng)于模型自(zì)进化。
深思考创始人杨志(zhì)明(míng)则认为,下一个转折点是,如何利用小算力(lì)训练出(chū)大模型、做好大(dà)模型的推理,在这(zhè)背后,当下主流的Transformer架构需要堆(duī)积(jī)算力,“性价比太低”。架构的改进或许是重要的方向。
值得期待(dài)的是,近(jìn)日有消息称,OpenAI将(jiāng)在今年秋天推出代号为“草 莓”(Strawberry)的新(xīn)模型。作为核心(xīn)技术突破,草(cǎo)莓可(kě)能集成在ChatGPT内,帮助 解决当(dāng)前AI聊(liáo)天机器人难以完成(chéng)的复杂任务,如数学和编程(chéng)问题。此外(wài),草莓更(gèng)会“思考(kǎo)”,在解决强(qiáng)主观(guān)性问题上更擅长。
“草莓”是前菜,消息人士透露,OpenAI正(zhèng)在开发下一代 大型语言模(mó)型Orion(猎户座),草莓将为其(qí)生成高质量训(xùn)练数据,以帮助减少大模型(xíng)幻觉问题。能否突破瓶颈,带领行业进入下一转折点,最大的可(kě)能性还在OpenAI。
责任编辑:刘万里 SF014
“真正的变革是,什么时间点有一个模型可以把(bǎ)错误率降低到个位数。”
在经历了上半(bàn)年密集的(de)技术和产品发布(bù)后,下(xià)半年的AI圈显得有些平静,不再有如Sora这样引发轰动的产品,在GPT-4o之后,行业引领者OpenAI也迟迟没有大动作。不少行业人(rén)士认为,技术的(de)迭(dié)代放缓了。
在亚布(bù)力企业家夏季 年(nián)会上,猎豹移动董事长傅盛提(tí)出一个观(guān)点,AI浪潮已出(chū)现泡沫迹(jì)象,从(cóng)大模型出现在大众视野以来,已过去近一年的时间,但最顶级大模型的模型(xíng)没有明(míng)显提升。“客(kè)观来说,谁家大模型有(yǒu)什么优势,基本(běn)尚(shàng)属‘一家之言’,用户用起来没有(yǒu)感觉到太(tài)大差别。”他认为,当前大模型同质化严重。
在与MiniMax创(chuàng)始人闫俊杰的交流(liú)中,关于瓶(píng)颈与(yǔ)转折(zhé)点(diǎn)他提到,现在所有模型错误率都是20%的量级,“真正的(de)变(biàn)革是,什么时间点有一个模型可(kě)以把错误率降低到个位数,这(zhè)会是一个非常本质的变化。”未来大(dà)模型能(néng)否成功,傅盛也认(rèn)为,大模型的(de)天花板能否再上一个台阶很重要。
“至暗时刻(kè)觉得技术很重要(yào)”
这一轮的生成式AI是(shì)一场掀起巨大浪潮(cháo)的社会生产力革命,傅盛认为,这波浪潮今天已(yǐ)经呈现出明显的泡沫迹(jì)象(xiàng)。
何为“泡沫”,傅盛认为,一方面是模型能力没(méi)有明显提升。“在一个以科技(jì)为核心的技术浪(làng)潮中,这是不太(tài)正(zhèng)常的。”每次(cì)写不(bù)同的东西,傅盛(shèng)都会用好(hǎo)几(jǐ)个大模型互相比较,“有时候这个大模型更好用,有时那个更好用,当(dāng)前大模型(xíng)的同质化很严重(zhòng)。”
其次,说了(le)这么久人工智能(néng),“但真正的Killer APP(杀手级应用)并没有(yǒu)出现,不仅在C端(duān)没有出现,B端也未能出现。很多行业大模型都说(shuō)自己有不少应用,但真正提效的并不多。”傅盛说(shuō),想(xiǎng)要将大模(mó)型真正变成(chéng)一个明显能提效的应用,还很有(yǒu)难度。
泼了盆冷水的同时,傅盛补充表示,泡沫不见得会使大模型发展崩塌(tā),因为有点泡沫(mò)很正常,互联(lián)网早期(qī)也(yě)曾出现泡沫。
在(zài)今年6月演讲时 ,金沙江创投主管合伙人朱啸虎(hǔ)曾谈及GPT-5一(yī)直“跳(tiào)票”时表示,“硅谷也(yě)高度怀疑GPT-5还有没有,即使出来(lái)在核心推(tuī)理能力上还有(yǒu)没有显著的提高,这是(shì)很不确定的东(dōng)西,今(jīn)年年(nián)底是一个验金石。”他(tā)判断,大模型演化速度有放(fàng)缓(huǎn)趋(qū)势,而迭代曲线放缓以后,应用层的机会就会更多。
不过(guò),在波形(xíng)智能创始人姜昱辰看来(lái),大模型技术迭 代其实并没有放缓(huǎn),而(ér)是保持着2018年以来的增(zēng)速,那一年基于Transformer架构的大规模语言模型预训(xùn)练开始(shǐ)流行。从博士 的自然语言处理研究到大模(mó)型(xíng)创业,姜昱辰更早(zǎo)开始经历这轮大模型(xíng)技术演化的(de)进(jìn)程。
“大家之所以有这(zhè)样的(de)感觉(jué)(技(jì)术迭代放(fàng)缓)是因为大众(zhòng)是在(zài)2022年(nián)底、2023年初第(dì)一次看到这(zhè)个技术,做了很多短时间的learning和(hé)追赶,追(zhuī)赶(gǎn)当然比较快(kuài)。”姜昱辰对第一(yī)财经表示,把OpenAI做出来(lái)的技术学一遍,不叫“技术迭代”。
虽 然行业此(cǐ)前有一句“没有应用的大模型一文不值”广为传播,但在很多从业者看来,大模型的技术同样重要(yào),因为(wèi)更好的应用一定建立在更(gèng)好的 技(jì)术之上,技术和应用(yòng)是(shì)一个(gè)相互转化的串联关系。
在MiniMax刚(gāng)刚(gāng)过去的伙伴日活动上,闫(yán)俊杰在讨论中提到,“至暗时刻(kè)会觉得技术(shù)很重(zhòng)要。”
很多时候做技术(shù)时,并没有(yǒu)真正意识到技术为什么重要。闫俊(jùn)杰举(jǔ)例表示,用户感受到的东西可能来(lái)自于一些产品细节,或者一些品牌,技术本身是 好多个环节在一起,尤其在(zài)繁荣时期,可能(néng)分不清什么是主,什么是次,“当在某些时间点遇到瓶颈的时(shí)候,抛开所有的(de)表(biǎo)象东西,会意识到技术才是最终提升 的来源。”
“技术做不好的时候,发(fā)现所有东西都是问题,当技术做好了,似乎所有(yǒu)问题都被掩盖(gài)了,”闫俊杰表示,技术是(shì)一家科(kē)技(jì)公司最核 心(xīn)的要素这件事,尽(jǐn)管(guǎn)已深刻意识到,偶尔还是在继续犯(fàn)错误,“这个是我在多次至(zhì)暗时(shí)刻里(lǐ)最有共性的一件事。”
做技术也是一件(jiàn)非常奢侈的事,“如果看一眼我们每个月的账单(dān)还是会非常心疼的。”在采访中,说到这话(huà)时,闫俊杰几次(cì)看向(xiàng)了MiniMax技(jì)术总监韩景涛,也就是(shì)“账单的制(zhì)造者”。
因为做技(jì)术可能会失败,研发投入很大,闫俊杰此前很多时候会(huì)想要不要走(zǒu)点(diǎn)捷(jié)径,但实(shí)践经验会证明,走捷(jié)径(jìng)就(jiù)会被“打脸”,“这个事在我这发生可能超过十次了。”
“一个东西要实验三次才能成(chéng)功,第三次实验成功的时候,会想前(qián)面两次是不是可以不用做,就像 吃包子吃三个(gè)会吃饱,就会想是不是前两(liǎng)个(gè)不用吃是一样的。”闫俊杰表示,这是做(zuò)技术时一(yī)个比较容易(yì)犯的错误(wù)。
在各种关(guān)于模型技术细(xì)节(jié)的排行榜上,或许(xǔ)GPT-4o的跑分不常出(chū)现在第一,甚至会在中间,但在MiniMax基于真实客户(hù)的测试(shì)集中,OpenAI的GPT-4o是遥遥领先的(de)。
在大模型时代(dài),如何判断技术的好坏,大众很迷惑,企业同样觉得很难,但这(zhè)个点(diǎn)很重要,因(yīn)为(wèi)技术的评价标准会决定模型的迭代方向,如果指(zhǐ)标本身不对(duì)迭代方向可能就错了。
闫俊杰提到,MiniMax目前(qián)的(de)一个办法是,基于MiniMax开发平(píng)台的3万(wàn)多个开发者和付费客户,在他们(men)的场景上构建(jiàn)一个真实使用的测试集,有些客户对他们的场景非常看重,要求保证产品的(de)效果,基于这些客户真实使(shǐ)用(yòng)的评测是较为客观的。
“这个测试集上所有国产 化模型(xíng)相比GPT-4o都(dōu)相差较多,其(qí)他排行(xíng)榜基本上GPT-4o都要排到中间去(qù)了,但(dàn)是在我们的排行榜上确实(shí)GPT-4o排在最靠前。”闫俊杰提到(dào),国内所有模型都与GPT-4o有本质的差距,且越难的问题差(chà)距越大。按照这个评估方式,国产模型的提升空间还很大。
静待下一转折点
大(dà)模型的下一个转折点在哪里?众多创业者有(yǒu)不同的答案,有人认为是(shì)错(cuò)误(wù)率的降低,有人觉得是个性化的模型,有人认为关(guān)键在于小算力训练(liàn)出大模型,背后或许意味着架构的改进。
朱啸虎曾(céng)提到,今年的大模型本身还是有很多错误,且出(chū)来的结(jié)果不可控,今(jīn)天落地最困难的是,场景下怎么解决错误问题、可控问题。
现在所有的模型错误率都在20%左右,即两位数(shù)的错误率,有时惊艳,有时不靠谱,闫俊杰认(rèn)为,这也是制约模型处理复杂任务的原因,“真(zhēn)正的变革是,什么时间点有一个模型可以将错误率降低到(dào)个位数。”这是能增加用户使(shǐ)用深度的核心手段。
复杂任务往往需要多个步骤“相乘”,较高的错误率导(dǎo)致失败率的指数增加。闫俊杰表示,即便是GPT-4这样的模型(xíng)也无法支持非常灵活的Agent(智(zhì)能体),这并不是(shì)因为Agent框架写得不够好,产品做得不好,最根本的原因是模型本身不够好(hǎo)。
但现在(zài)可以看到的是,每家公司有了算力,无论是OpenAI、谷歌还是Meta,都(dōu)在加码算力。Meta CEO扎(zhā)克伯格曾在社(shè)交媒体上 表示,要建(jiàn)立一个大规模(mó)的计算基础设施,到2024年底(dǐ),这一设施(shī)将包括35万张英伟达H100显卡,业(yè)界(jiè)预估这(zhè)或许将耗费近百亿美元。
算法也在进步,OpenAI在2023年只能做出来GPT-4,但2024年能(néng)做GPT-4o,虽然性能(néng)差(chà)不多(duō),速(sù)度快了近(jìn)10倍。
“计算量(liàng)多了(le)不止10倍,算法(fǎ)也快了10倍(bèi)时,没有道理说训练(liàn)不(bù)出来一(yī)个更好的模型。”闫俊杰(jié)提到,“如果Scaling law(尺度定律)是对(duì)的,未来这个模型一定会出现,标志就是个位数的错误率。”
在(zài)傅盛看来,降低错误率同样重要。“今天的大模型有20%-30%的知识幻觉(jué),而且‘它不知道自己不 知道’,这是(shì)在企(qǐ)业(yè)应用(yòng)上非常重要的一大卡点。”想要真正落地一个应用,得用(yòng)大量(liàng)工程化的(de)手段(duàn)去解决以前通(tōng)用人工智能认为它(tā)能干(gàn)的活,这中间是有差距(jù)的。
问及大模(mó)型技术的下一个转折点,姜(jiāng)昱辰给了一个不一样(yàng)的(de)答案,她认为是“个性化”的技术。
“ToB的创业者会(huì)觉得错误率降低很重要,因(yīn)为企业级、工业级场景中要的是极高准确率,而在消费场景中,要的是‘懂(dǒng)你’的个人助手。因此,对ToC创业者来说,个(gè)性化技术更重要。”对于不同的(de)答案,姜昱辰解(jiě)释,ToB和ToC不(bù)同的场景下会有不同的感知。
从难度(dù)上来说(shuō),大(dà)模型幻觉是概率模(mó)型固有的,不容易解决(jué),但个性化大模(mó)型确实是(shì)技术层(céng)面可行的(de)。姜(jiāng)昱辰提到(dào),波形智能(néng)目前在做的是这个方向,主要的(de)难点是(shì)算法,中(zhōng)间需要知道的(de)是,这样的个性(xìng)化生成式模型需要什么用户信息,如何用于模型自进化。
深思考创始人杨志明则认为,下一个(gè)转折点是,如何利用(yòng)小算力训(xùn)练出大(dà)模型、做(zuò)好大模型的推理,在这(zhè)背后,当(dāng)下主流的Transformer架构需要堆积算力(lì),“性价比太低”。架构(gòu)的改进或许是重要的方向。
值得期待的是,近日有消息称,OpenAI将在今年秋天推出代号为“草莓(méi)”(Strawberry)的新模型。作为核心技术突破,草莓可能集成在ChatGPT内(nèi),帮助解决当前AI聊天机器人难以完成的复杂任务(wù),如数学(xué)和编程问题。此外,草莓更会“思考”,在解 决强主观性问题上更擅长。
“草莓”是前菜,消息(xī)人士(shì)透露,OpenAI正在开发下一代大型语言模型Orion(猎户座),草莓将为其生(shēng)成高质量训练数(shù)据,以(yǐ)帮助减少大模(mó)型幻(huàn)觉问题。能否突破瓶颈,带领行业进入下一转折点,最大(dà)的可能性还在OpenAI。
未经允许不得转载:橘子百科-橘子都知道 大模型,何时迎来大转折?
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了