大模型,何时迎来大转折?
“真正的变(biàn)革是,大模型,何时迎来大转折?什(shén)么时间点有一个模型可以把错误率降低到个位(wèi)数。”
在经历了上半年密集的技(jì)术和产品发布后(hòu),下半年的AI圈显(xiǎn)得有些平静,不(bù)再有如Sora这样引发轰动的产品,在GPT-4o之后,行业引领者OpenAI也迟迟没有大动作。不少行业人士(shì)认为,技术的(de)迭代放缓了。
在亚布力企业家夏季年会上,猎豹移动(dòng)董(dǒng)事长傅盛提出一个观点,AI浪潮已出现泡沫(mò)迹象,从大模型出现在大众视野以来,已(yǐ)过去近一年的时间,但最顶级大模型的模型没有明显提升(shēng)。“客观(guān)来说,谁家 大模型有什么优势,基(jī)本尚(shàng)属‘一家之言’,用户用(yòng)起来没有感觉到太大差别。”他认(rèn)为,当前大模型同质化严重。
在与MiniMax创(chuàng)始人(大模型,何时迎来大转折?rén)闫(yán)俊杰的交流中,关于瓶颈与转(zhuǎn)折点(diǎn)他提到,现在所有模型错误率都是20%的量级,“真正的(de)变革是,什(shén)么时间点有一个模型(xíng)可以把(bǎ)错误率降低到个位数,这会(huì)是一个非常本质(zhì)的变(biàn)化。”未来大模型(xíng)能否成功,傅盛也认为,大模型的天花板能否再上一个台(tái)阶很重要。
“至暗时(shí)刻(kè)觉(jué)得技术很重要”
这一轮的生成式AI是一场掀起(qǐ)巨大(dà)浪潮的社会生产(chǎn)力革命,傅盛认为(wèi),这波浪潮今 天(tiān)已经(jīng)呈现出明显(xiǎn)的泡沫迹象。
何为“泡沫”,傅盛认为(wèi),一方(fāng)面是模 型能力没有明显提升(shēng)。“在(zài)一个以科技为核心(xīn)的技术浪(làng)潮中(zhōng),这是不太正常的(de)。”每次写不(bù)同的东(dōng)西,傅盛都会用好几个大模型互相比较,“有时候这个大 模型更好(hǎo)用,有时那个更好用,当前大模(mó)型(xíng)的(de)同质(zhì)化很严重。”
其次,说了这么久(jiǔ)人(rén)工智能,“但真(zhēn)正的Killer APP(杀手级应用)并没有出(chū)现,不仅(jǐn)在C端没有(yǒu)出(chū)现,B端(duān)也未(wèi)能出现。很多(duō)行业大(dà)模型都说自己有不少应用,但真正提效的并不多。”傅盛说,想(xiǎng)要将大模型真(zhēn)正变(biàn)成一个明显能提效的应用,还很(hěn)有(yǒu)难度。
泼了盆冷水的同时,傅盛补充表示,泡沫不见得会(huì)使大模型发展崩(bēng)塌,因为(wèi)有点泡沫很正常,互联(lián)网早期也(yě)曾出(chū)现泡沫(mò)。
在今年6月(yuè)演讲时,金沙江创投主管合伙人朱啸虎曾谈及GPT-5一(yī)直“跳票”时(shí)表示,“硅谷也高度(dù)怀疑GPT-5还有没(méi)有,即使(shǐ)出来(lái)在核心推理能力上(shàng)还有没有显著的提高(gāo),这是很不确定的东西,今年年底是(shì)一个验金石。”他判断,大模型(xíng)演化速度有放(fàng)缓趋势(shì),而迭代曲线(xiàn)放缓以后,应用层的机会就会更多。
不过,在波(bō)形智(zhì)能创始人姜昱辰看来,大模型技术迭代其实(shí)并没(méi)有放缓,而是保持着2018年以来的增速,那一年基于Transformer架构的大规模语言模型(xíng)预训练开始流(liú)行。从博士的自然语言处理研究(jiū)到大模(mó)型创业,姜昱辰更早开始经历这轮大模型技术演化的(de)进(jìn)程。
“大家之所以有这(zhè)样的感(gǎn)觉(技术迭代放缓)是因为大众是在2022年底、2023年初第一次看到这个技术,做了很(hěn)多(duō)短时间的(de)learning和追赶,追(zhuī)赶当(dāng)然比较快。”姜昱辰对第一财(cái)经(jīng)表示,把OpenAI做出(chū)来的技(jì)术(shù)学一遍,不叫 “技术(shù)迭代(dài)”。
虽然(rán)行业此前有一句“没有应用(yòng)的大模(mó)型一文不值”广为传播(bō),但(dàn)在很(hěn)多(duō)从业者看来,大模型的(de)技术同(tóng)样重要,因为更好的应用一定建立在更(gèng)好的(de)技(jì)术之上,技术和(hé)应用是一(yī)个相互(hù)转化的串联关系。
在MiniMax刚刚过去的伙伴日活动上,闫俊杰(jié)在讨论中提到,“至暗(àn)时刻会觉得技术很重要。”
很多时(shí)候做技(jì)术时,并没有真正意识到(dào)技术为什(shén)么重要。闫俊(jùn)杰举例表(biǎo)示,用户感受到的(de)东西可能来自于(yú)一些产品(pǐn)细节,或(huò)者一些品牌,技(jì)术本身是好多个环节在一起,尤其在繁荣时期,可能分不清什么是主,什么是次,“当(dāng)在某些时间点遇到(dào)瓶颈的(de)时候,抛开所有的表象(xiàng)东西,会意识(shí)到技术才是最终提(tí)升的来源。”
“技术做不好的时候,发现所有东西都(dōu)是问题(tí),当技术(shù)做好了,似乎所有问题都被掩盖了(le),”闫俊杰(jié)表示,技术是一家科技公司最核心的要素这件(jiàn)事,尽管已深刻意识到(dào),偶尔还是在继续犯错误,“这个是(shì)我在多次至暗(àn)时刻(kè)里最有(yǒu)共(gòng)性的一件事。”
做技术也是一件非常奢侈的事,“如(rú)果看一眼我们每个月的账单还(hái)是会非常心疼的。”在采(cǎi)访中,说到这话时,闫俊杰几次看(kàn)向(xiàng)了MiniMax技术(shù)总监(jiān)韩景涛,也就(jiù)是“账单的制造者(zhě)”。
因为做技术可能会失败,研发(fā)投入很大,闫俊杰此前很多时候会(huì)想要不(bù)要走点捷径,但实践经验(yàn)会证明,走捷径就会(huì)被“打(dǎ)脸”,“这(zhè)个事在我这发生可能超过十次了。”
“一个东西要实验三次才能成功(gōng),第三次实验成功的 时候,会想(xiǎng)前面(miàn)两次(cì)是(shì)不是可以不用做,就像吃包子(zi)吃三个会吃饱,就会想是不是前两个不用吃是一样的。”闫(yán)俊杰表示,这(zhè)是做技术时一个比较容(róng)易犯的(de)错误。
在各种关于(yú)模型技术细节的排行榜上,或许GPT-4o的跑分不(bù)常出(chū)现(xiàn)在第一,甚至会在(zài)中间,但在MiniMax基于真实客(kè)户的测试集中,OpenAI的(de)GPT-4o是(shì)遥(yáo)遥领先的。
在大模型时代,如何(hé)判断技术的好(hǎo)坏,大(dà)众很迷惑(huò),企业同样觉得很难,但这个点很重要,因(yīn)为技术的评价标(biāo)准会决定模型的迭代方向,如果指标本身不对迭代(dài)方向可能就错了(le)。
闫俊杰提到,MiniMax目前(qián)的一个办法是,基(jī)于MiniMax开发平台的3万多个(gè)开发 者和付费客户,在他们的场(chǎng)景上(shàng)构建一个(gè)真实使用的测试集,有(yǒu)些客户对他(tā)们的(de)场(chǎng)景非(fēi)常看(kàn)重,要求(qiú)保证产品的效果,基于(yú)这些客户真实使用(yòng)的评测是较为客(kè)观的。
“这个测试集上所有国产化模型相比(bǐ)GPT-4o都相差较多(duō),其他排行(xíng)榜基本上GPT-4o都要排到中间去了,但(dàn)是在我们的排行榜上(shàng)确实GPT-4o排 在最靠前。”闫俊杰提到,国内所有模型都与GPT-4o有本质的差距,且(qiě)越难的问题差距越大。按(àn)照这(zhè)个评估方式,国产模(mó)型的提升空(kōng)间还很(hěn)大。
静待下一转折点
大(dà)模型的(de)下一个转折(zhé)点在哪里?众多创业(yè)者(zhě)有不同(tóng)的答案,有人认为是错误率(lǜ)的降低,有人觉得是个性化的模(mó)型,有人(rén)认为(wèi)关键在于小算力训练(liàn)出大模型,背后或许意味着架构的改(gǎi)进。
朱啸虎曾提到,今年的大模型本身还是有很多错误,且出来的结果不可控,今天(tiān)落地最困难的是,场景下怎么解决(jué)错误问题、可控问题。
现在所有的模型错误率(lǜ)都在20%左右,即两位数的错误(wù)率,有时惊(jīng)艳,有时不靠谱,闫俊杰认为,这也是制约模型处理复杂任务的原因,“真正的(de)变革是,什么时间点有一个模型可以将错误率降(jiàng)低到个位数。”这是能增加用户使用深度(dù)的核心手段。
复杂(zá)任务往往需要多个步(bù)骤“相乘”,较高的错误率导致失败率的指数(shù)增加。闫俊杰表示,即便是(shì)GPT-4这样的模型也无法支持非常灵活的Agent(智能体),这并不是(shì)因为(wèi)Agent框架写得不够好,产品做得不好,最根本的原因是模型本身不(bù)够好。
但现在可以看到的是,每(měi)家公司有(yǒu)了算力,无 论是OpenAI、谷歌还(hái)是Meta,都在加码算力。Meta CEO扎克(kè)伯格曾(céng)在社交媒体上表示,要建立(lì)一个大规模的计算基础设施,到(dào)2024年底,这一设施将 包括35万张(zhāng)英伟达H100显卡,业界预估这或许(xǔ)将耗(hào)费近百(bǎi)亿美 元。
算法也在进步,OpenAI在2023年(nián)只能做(zuò)出来(lái)GPT-4,但2024年能做GPT-4o,虽(suī)然性能差不 多,速度快了近10倍。
“计算量多 了不止10倍,算法也快了10倍时,没有道理说(shuō)训练不出来(lái)一 个更好(hǎo)的模型。”闫俊杰提到,“如果Scaling law(尺(chǐ)度定律)是对的,未来这 个模型一定会出现,标志就是个(gè)位数的错误率。”
在傅盛看来,降低错误率同样重要。“今天的大(dà)模型有20%-30%的知识幻觉,而且‘它不知道自己不知道’,这 是(shì)在(zài)企业(yè)应用上非常重要的一大卡点。”想要真(zhēn)正落地一个应用 ,得用大(dà)量工程化的(de)手段去解决以前通用(yòng)人工(gōng)智能(néng)认为它能干(gàn)的活,这(zhè)中间(jiān)是有差距(jù)的。
问及(jí)大(dà)模型技术(shù)的下一(yī)个转折点(diǎn),姜昱辰给了一个不一样的答案,她认为是“个性(xìng)化”的技术。
“ToB的创业者会觉得错误率降低(dī)很重(zhòng)要,因为企业级、工业级场景中要的是极高准确率,而(ér)在消费场景中,要的是‘懂你’的个人助手。因此,对ToC创业者来(lái)说,个性化(huà)技术更重要。”对于不同的答(dá)案,姜昱辰解释,ToB和ToC不同(tóng)的场景下会有不同的(de)感知(zhī)。
从难度上来说,大模型幻(huàn)觉是概率模型固有的,不容易(yì)解决,但个性化大模(mó)型确实是技术层(céng)面可行的。姜昱辰(chén)提到,波(bō)形智能目前在做的是这个方(fāng)向,主要的难点是算法,中间需要(yào)知道的是,这样的个性化生成式模型(xíng)需要什么用户信息,如何用于 模型自进化。
深思考创始人杨志明则认为,下一个(gè)转折(zhé)点是,如何(hé)利用(yòng)小算力训练出大模型、做好(hǎo)大模(mó)型的推理,在这(zhè)背后,当下主流的Transformer架构需要堆积算力(lì),“性价比太低”。架构的改进或许是重(zhòng)要的(de)方向。
值得(dé)期待的是,近日有消息称,OpenAI将在今年秋天推出代号(hào)为(wèi)“草莓(méi)”(Strawberry)的新模型(xíng)。作为核心技术突破,草莓可能集成在ChatGPT内,帮(bāng)助解决当前AI聊天(tiān)机(jī)器人难以完成的复杂任务,如数学和编程问题。此外,草莓更会“思考”,在解决强主观性问题上更擅长。
“草莓”是前菜,消息人士透露,OpenAI正(zhèng)在开(kāi)发下一代大型语言模(mó)型Orion(猎户座),草莓将为其生成高质量训练数据,以(yǐ)帮助减少大模型幻觉问题。能否突破(pò)瓶颈,带领行业进(jìn)入下一转折点,最大(dà)的可能性(xìng)还(hái)在(zài)OpenAI。
责任编辑:刘万里 SF014
“真正(zhèng)的变革是,什么时间点有一个模型(xíng)可以把错误率降低到个(gè)位数。”
在经历了上半年密集的(de)技(jì)术和产品发布后,下半(bàn)年的AI圈显(xiǎn)得有些平静,不再(zài)有如Sora这(zhè)样(yàng)引发轰动的产(chǎn)品,在GPT-4o之后(hòu),行业引领者OpenAI也迟迟没有大动(dòng)作。不少行业人士认为(wèi),技术的迭代放缓(huǎn)了。
在亚布(bù)力企业家夏季年会上,猎豹(bào)移动董事长傅(fù)盛提出一个观(guān)点,AI浪(làng)潮已(yǐ)出现泡沫迹象,从大模型出现在大众视野以来,已过去(qù)近一年的时间,但最顶级(jí)大模型的模(mó)型没(méi)有明显提升。“客观来说,谁家大模型有什么优势,基(jī)本(běn)尚属‘一家之言’,用户(hù)用起来(lái)没有(yǒu)感觉(jué)到太大差别。”他认为,当(dāng)前(qián)大(dà)模型同质化(huà)严重。
在与MiniMax创始人闫俊杰的交流中,关于瓶(píng)颈(jǐng)与转折点(diǎn)他提到,现在所(suǒ)有模型错(cuò)误率(lǜ)都是20%的量级,“真(zhēn)正的 变革是,什么时(shí)间点有(yǒu)一(yī)个模型可以把错误率降低到个位数(shù),这会是一个(gè)非常(cháng)本质的变化。”未来大模型能否(fǒu)成功,傅盛(shèng)也认为(wèi),大模型的天花板能否(fǒu)再(zài)上一个台(tái)阶(jiē)很重要(yào)。
“至暗时刻觉(jué)得技术很重(zhòng)要”
这一轮的生成(chéng)式AI是一场掀起巨大浪潮的社会生产力革命,傅盛认(rèn)为,这波浪潮今天已经呈现出明显的(de)泡沫迹象。
何为“泡沫”,傅(fù)盛认为,一方(fāng)面是模型能(néng)力没有明显提升。“在一个以科技(jì)为核心的技术浪潮中,这是不太正常的。”每次写不同的(de)东(dōng)西,傅盛(shèng)都会用(yòng)好几个大模型互相比较,“有(yǒu)时候这个大模型更好用,有(yǒu)时那(nà)个更(gèng)好用,当前大模型的同质化很严重。”
其次,说了这么久人工智能,“但真正的Killer APP(杀手级(jí)应用)并没有出现,不仅在C端没有出现,B端(duān)也未能(néng)出现。很多行业大模型都说自己有不少应用,但真正提(tí)效的并不多。”傅(fù)盛说,想要将大(dà)模型真正(zhèng)变成一个明显能提效的 应用,还(hái)很有难度。
泼了盆冷水的同(tóng)时(shí),傅盛补充表示(shì),泡(pào)沫不见得会使大模型发展崩(bēng)塌,因为有点泡沫很正常,互联网(wǎng)早期也(yě)曾(céng)出 现泡沫。
在今年(nián)6月演讲时,金(jīn)沙江创投主管合伙人朱啸虎曾(céng)谈及GPT-5一直 “跳票”时表示,“硅谷也高度怀疑GPT-5还有没有,即使(shǐ)出来在核心推理能力上还有 没(méi)有显著的提高,这是(shì)很不确定的东西,今年年底是(shì)一个验金石。”他判(pàn)断,大模型演化(huà)速度有(yǒu)放(fàng)缓趋势,而迭代曲线放缓以后,应(yīng)用层的机会就会更多。
不过(guò),在波形智能创始人姜昱(yù)辰看来(lái),大模型技术迭代其(qí)实并没有(yǒu)放缓,而是保持着2018年以来的增速,那一年基于(yú)Transformer架(jià)构的大规(guī)模语言模型预训练开始流行。从博士(shì)的自然语言(yán)处(chù)理研(yán)究到大模型创业,姜昱(yù)辰更早开(kāi)始经历这轮大(dà)模型技术演化的进(jìn)程。
“大家之所以有(yǒu)这(zhè)样的感觉(技术迭代放缓)是因为(wèi)大众是在2022年底、2023年初第(dì)一次看到这个(gè)技术,做了很多短时(shí)间的learning和追赶,追赶当然比较快。”姜(jiāng)昱辰对第一财经(jīng)表示,把OpenAI做(zuò)出来的技术学一遍,不叫“技术迭代”。
虽然行业此前有一句“没(méi)有应(yīng)用的大模型一(yī)文不值”广为(wèi)传播,但在很多从业者看来,大模型的技术同样重要,因为更好(hǎo)的应用一定建立在更好的技术之上,技术 和应(yīng)用是一个相互(hù)转化的串联关系。
在(zài)MiniMax刚刚过(guò)去的伙伴日活动上,闫俊杰在讨论(lùn)中提到(dào),“至暗时刻(kè)会(huì)觉(jué)得技术很重要。”
很多时候做技术时,并没有真正意识到技术为(wèi)什么重要。闫俊杰(jié)举例表示,用户(hù)感(gǎn)受到的东西可能来自于一些产品细节,或者一些品牌,技术本(běn)身是好多(duō)个环(huán)节在一(yī)起,尤其在繁荣时期,可能分不清(qīng)什么是主,什么是次,“当在某些(xiē)时间点遇到瓶(píng)颈的时候,抛(pāo)开所有的表象东(dōng)西,会意识到(dào)技术才是(shì)最终提升的来源。”
“技术做不好的时(shí)候,发(fā)现所有东西(xī)都是问题(tí),当技术做好了,似乎所有问题都被(bèi)掩盖了,”闫俊(jùn)杰表示,技术是一家科技公司(sī)最核心的要素这件事,尽管已深刻(kè)意(yì)识到,偶尔还是在继续犯错误,“这(zhè)个是我在多次至暗时(shí)刻里最(zuì)有共性(xìng)的一件事。”
做技术也是一(yī)件非常奢侈的事,“如果看一眼我们每个月的(de)账单还是会非常(cháng)心疼的。”在采访中,说到这话时,闫俊杰几次看向了MiniMax技(jì)术总监韩景涛,也就是“账(zhàng)单的制造者”。
因为做技(jì)术可能会失败,研发(fā)投入很大,闫俊杰此前很(hěn)多时候(hòu)会想要不要走点捷径,但(dàn)实践经验(yàn)会证明,走捷径就会被“打脸”,“这个事在我这发生可能超过十次了。”
“一个东西要实验三次才能成功,第三(sān)次实验(yàn)成功的(de)时(shí)候(hòu),会 想前(qián)面两次是不是可以不用做(zuò),就像吃包子吃三个会吃饱,就会 想是(shì)不(bù)是前(qián)两个不(bù)用吃是一(yī)样的。”闫俊杰表示,这是(shì)做(zuò)技术时一个比较容易犯的错误(wù)。
在(zài)各种关(guān)于模型技术细节的排行榜上,或许GPT-4o的跑分(fēn)不常出(chū)现在第一,甚至会在(zài)中间,但(dàn)在MiniMax基(jī)于真实客户的测试集(jí)中,OpenAI的GPT-4o是遥遥领先(xiān)的(de)。
在大模型时代(dài),如何判断(duàn)技术的好(hǎo)坏(huài),大(dà)众(zhòng)很迷惑,企业同样觉得很难,但这个点很重要,因为(wèi)技术(shù)的评(píng)价标准会决定模型的迭代方(fāng)向,如果指标本身不对迭(dié)代方向可能就错了。
闫(yán)俊(jùn)杰提到,MiniMax目前的一个办法是,基于(yú)MiniMax开发平台的3万多个开发者和付费客户,在他们的(de)场景上构建一个真(zhēn)实使用的(de)测试集,有些客户对他们的场景非常看重,要求保证产品的(de)效果,基于这些客户真实使用的(de)评测是较(jiào)为客观(guān)的。
“这个(gè)测试集上所有国产化模型相比GPT-4o都相差较多,其他排行榜基本上GPT-4o都要排到中间去(qù)了,但是(shì)在我们的排行榜上确实GPT-4o排在(zài)最靠前。”闫俊杰提到,国内所有模型都与(yǔ)GPT-4o有本(běn)质的差距,且越难(nán)的(de)问题差(chà)距越大。按照这个评估方式,国 产模型 的提升空间(jiān)还很大。
静待下一转折点
大(dà)模型(xíng)的下一个转折点在哪(nǎ)里(lǐ)?众多创业者有不同的(de)答案,有人认为是错(cuò)误率的降低,有人觉(jué)得是个性化的模(mó)型,有人认为关(guān)键在于小算力训练出大模型,背后或许意味着架构的改进。
朱啸虎 曾提到,今(jīn)年的大模型本身还是(shì)有很多错(cuò)误,且出来的结果不可控,今天落地(dì)最(zuì)困难的是,场景下怎么(me)解决错(cuò)误问题(tí)、可(kě)控问题。
现在(zài)所有的模型错误率都在20%左右,即两位数的错误率,有(yǒu)时(shí)惊艳,有时不靠谱,闫俊杰认为,这也是制约(yuē)模型处理复杂任务的原因,“真正的变革是,什么(me)时间点有一个模型可以将错误率(lǜ)降低到个位数。”这是能增加用户使用深度的核心手(shǒu)段(duàn)。
复杂任(rèn)务往(wǎng)往需要多(duō)个步骤“相(xiāng)乘”,较高的错误率导致失败率的指数(shù)增加。闫俊杰表示,即便是GPT-4这样的(de)模型也无法支持非常灵活的Agent(智能体),这并不(bù)是因为Agent框架写得(dé)不够好,产品做得(dé)不好,最根本的原因是模型本身不够好。
但现在可以看到的是,每家公司有了(le)算力,无论是OpenAI、谷歌还是Meta,都在加码算力。Meta CEO扎克(kè)伯格曾在社交(jiāo)媒体上表示,要建立一(yī)个大规模的计算基础设施,到2024年底,这一设施将包括35万张(zhāng)英伟(wěi)达(dá)H100显卡,业界(jiè)预估这或许将耗费近百亿美元。
算法也在进步,OpenAI在2023年只能做出来(lái)GPT-4,但2024年能做(zuò)GPT-4o,虽(suī)然性能差不多,速度快了近10倍。
“计算量多了不止10倍,算法也快了10倍时,没有道(dào)理说训练不出来(lái)一个(gè)更好的模型。”闫俊杰提到,“如果Scaling law(尺度定律)是对(duì)的,未来这个模型(xíng)一定会出现,标(biāo)志就是(shì)个位数的错误(wù)率(lǜ)。”
在傅(fù)盛看来,降低错误率同样(yàng)重要。“今天的大模(mó)型有20%-30%的知识幻觉,而且‘它不(bù)知道自(zì)己不知道’,这是在(zài)企(qǐ)业应用上非常重要(yào)的一大卡点。”想要真正落(luò)地一个应用,得用大量(liàng)工(gōng)程化的手段去解决以前通用人工 智能认为它能 干(gàn)的(de)活(huó),这(zhè)中间是有差距的。
问及大模型技术的下一个转折点,姜昱辰给(gěi)了一个不一样的答案,她认为是“个性化”的技术。
“ToB的创业者会觉得错误率降低很重要,因为企业级、工业级(jí)场景中(zhōng)要的是(shì)极高准确率,而在消费场景中,要(yào)的是‘懂你’的个人助手。因此,对ToC创业(yè)者来说,个性化技术更重要。”对于不同的答案,姜昱辰解释,ToB和ToC不同的场景下会有不同的感(gǎn)知。
从(cóng)难度(dù)上来(lái)说,大(dà)模型幻觉是概(gài)率模型固有的,不容易解决,但个性化大模型确实是技术层面(miàn)可行的。姜昱辰提到,波形智能目前在(zài)做(zuò)的是这个方向,主要的难点是算法,中(zhōng)间需(xū)要知道的是(shì),这样的个性化(huà)生(shēng)成式(shì)模型需要什么用户(hù)信息(xī),如何用于模型自进化。
深思考创始人杨志明则(zé)认为,下一个(gè)转折点是,如何利用小算力 训练出大模型、做好大(dà)模型的推理,在这背后,当下主流的Transformer架构需要堆积算力,“性价比太低”。架构的改(gǎi)进或许是重要的方(fāng)向。
值得期待的是,近(jìn)日(rì)有消息(xī)称,OpenAI将在今年秋天推出代号为“草莓”(Strawberry)的新模(mó)型。作为核心技术突破(pò),草莓可能集成在ChatGPT内,帮助解决当前AI聊天(tiān)机器(qì)人难以完成的复杂任务,如数学和编程问题。此外,草莓更(gèng)会(huì)“思考”,在解决强(qiáng)主观性问题上(shàng)更擅长。
“草(cǎo)莓”是前菜,消(xiāo)息人士透露(lù),OpenAI正在开(kāi)发下一代大型语言(yán)模型Orion(猎(liè)户座),草莓将为其生成高质量(liàng)训练数据,以帮助减少(shǎo)大模型(xíng)幻(huàn)觉问题。能否突破(pò)瓶颈,带领行业进入下一转折点,最大的可能性还在OpenAI。
未经允许不得转载:橘子百科-橘子都知道 大模型,何时迎来大转折?
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了