橘子百科-橘子都知道橘子百科-橘子都知道

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

  每经(jīng)记者 郑雨航    每经实习记(jì)者 岳(yuè)楚鹏    每经编(biān)辑 兰素英    

  传说中的“草(cǎo)莓”模型今天在没有任何预告下忽然上线了!

  OpenAI最新发布的模(mó)型名为o1,是系列推理(lǐ)模型的首批版本,现阶(jiē)段推出(chū)的是o1-preview(预览版)和o1-mini(迷你版

  目前,o1-preview和o1-mini已经面向ChatGPT Plus和Team订 阅 用(yòng)户开放,而(ér)Enterprise和Edu用户将于下(xià)周初获得访问权限(xiàn)。OpenAI表示,它计划(huà)向ChatGPT五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”的所有免(miǎn)费用户提供o1-mini访问权限,但尚未确定发布日期。

  据OpenAI介绍,在解决问题的能力方面,o1模型比以往任何模型都更接近人(rén)类思维,并且能够“推理”数学、编码和科学(xué)任务。

  为了验证新模型的(de)能力(lì)是否正如OpenAI所宣称的那么强(qiáng)大,《每日经济新闻》记者从经典“草莓(méi)测(cè)试、代码编写、小游戏制作、数学(xué)与(yǔ)经济(jì)学,以(yǐ)及(jí)事实性知(zhī)识(shí)这五(wǔ)大维度对o1-preview模型进行了测试。

  结果显示,o1-preview表现出(chū)了超越OpenAI之前发布的大模型的编程和数学推(tuī)理(lǐ)能力。例(lì)如,o1-preview能够编写出(chū)流畅运行(xíng)的代(dài)码,并且在复杂环境中(zhōng)依然能够自行推理出解决方案(àn)。而且,记(jì)者在(zài)测试(shì)过程中也感觉到,o1-preview在人性化方面也有很大的提升,表现出了真人般的思考。不过,新模型也并非毫(háo)无缺点,在事实性知识测试就“翻车”了(le)。 

  当(dāng)地时间9月12日,OpenAI发布了一款名为o1的新模型(xíng),这(zhè)是其计划中一(yī)系列“推理”模型中(zhōng)的第一个版本,也是此前业界盛传已(yǐ)久的“草莓”模型。 

  对于OpenAI来说,o1代(dài)表着(zhe)它朝着类人AI的目标(biāo)又迈(mài)出了一步(bù)。OpenAI认为,o1代表(biǎo)着一种全新的能力,这一能力被认(rèn)为(wèi)如此重要,以至于公司(sī)决定从当前的GPT-4模型重新开始,完全放弃了(le)“GPT”品牌(pái),从1开始命名。 

  OpenAI表示,将从当前的GPT-4模型重新开始,“将计数器重置 为 1”,甚至放弃了迄今为止定义了聊(liáo)天(tiān)机器 人乃至整个生成式AI热潮的(de)“GPT”品牌。o1建(jiàn)立了一个能够通过一系列离散步骤,谨慎而合乎逻(luó)辑地 解(jiě)决问题的系统(tǒng),每个步骤(zhòu)都建立在上(shàng)一个步骤的(de)基础上,类似于人(rén)类 的推理方式。

  OpenAI首席科(kē)学 家Jakub Pachocki表示(shì),之前的模型 在收到(dào)用户问询时会立即开始(shǐ)回答。“而这个模型(指的是(shì)o1)会慢慢来(lái)。它思考(kǎo)问题,并尝试分解问题,寻找角度,努力提供最佳答案。”这就像大多数人在幼年(nián)时被父母所要求的那样,先想好再说话。

  OpenAI表示(shì),o1在竞赛编程问题(Codeforces)中(zhōng)排名(míng)第89个百分点,在美(měi)国数学奥林匹克竞(jìng)赛(AIME)预选赛 中位列美国前500名学生之列,并(bìng)且在(zài)物理、生物和化学问题的基准测(cè)试(GPQA)中超过了人类博士水平的准确度

  在OpenAI发布的研究和博客(kè)文章中,o1看起来“推理”能力十分强(qiáng)大(dà),不仅可解决高级数学和编码问(wèn)题,还能解密复杂的密码,以及解答来自专家学者们(men)关于遗传学、经济学和量子物理学的复杂问题。大量图表显(xiǎn)示,在(zài)内部评估中,o1在编码(mǎ)、数学(xué)和各个科学领域的问题上已经超(chāo)越了 公司最先进的语言模型GPT-4o,甚(shèn)至可能超越了人类(lèi)。

  为了深入了解o1模型的强大(dà)能力,《每日经济新闻》记(jì)者从经 典草莓测试(shì)、代码编写、小游戏制作、数学与经济学,以及事实性知识这(zhè)五大维度对o1-preview模型进行了测试。 

  1)草莓测试

  首先,记者用(yòng)之前几乎所有大模型都“翻车”的一道 简单题目进(jìn)行了(le)测试,即(jí)“单词strawberry里面到底有几个r。从生成的结果看,o1-preview还是带(dài)来(lái)了(le)一(yī)点小惊(jīng)喜的。

  2)代码编写

  记者首(shǒu)先向o1-preview询问了一个在线编程平台leetcode里最(zuì)有名的简单算法题:Two Sum(两数之和)问(wèn)题。o1给出了(le)很详尽的推理过程和(hé)答(dá)案。

  随后记者故 意要求优化(huà)答案,o1在 思考(kǎo)9秒后意(yì)识到自(zì)己提(tí)供的已经是最优解法了,并就此进行了(le)说明,另外还很“贴心 ”地提(tí)供了一个 次优解。而在之前(qián)记者对其他模型的测试中,这(zhè)些模型只会道歉然后将答案更改为次优解。

  3)小游戏制(zhì)作

  在o1模(mó)型的演示中,OpenAI演示过(guò)“用一句(jù)话编写(xiě)小游(yóu)戏”的功能。测试过程中,记者让o1-preview帮忙介绍好用的代码工具,并(bìng)协助编写一个(gè)乒乓小(xiǎo)游(yóu)戏。

  o1-preview仅用了19秒就给出(chū)了一(yī)份能够流畅(chàng)运(yùn)行的代(dài)码,并且附(fù)上了学习指南和鼓励的话语,非常地人性化。

  为避免o1-preview作(zuò)弊,使用的是记忆能力,而不(bù)是使用推理能力进行回答,记者 还请求o1-preview更换了一个代码运行环境:jupyter note。这一运行环境是(shì)针对数(shù)据(jù)分析进行特化的python环(huán)境,开发人员基本不会使用此环境开发小游戏。

  经过思考后(hòu),o1依然(rán)给出了一个(gè)可以运行(xíng)的代码。不过,相 较(jiào)于之前的代码(mǎ),这(zhè)份答案有(yǒu)着不少的bug,但这(zhè)也从侧(cè)面说明这(zhè)确(què)实是思考出来的答(dá)案,而不(bù)是训练过程中加入(rù)的标准答(dá)案。

  为进一步验证o1-preview的创新推理能力,记者随后(hòu)又(yòu)要求模型(xíng)在这个小游(yóu)戏的基础上开发一(yī)个更复杂有趣的小游戏。

  这下,o1的表现真的有(yǒu)点惊 喜。根(gēn)据乒乓游(yóu)戏的碰撞(zhuàng)机(jī)制,该模型自行迭代出了一个向(xiàng)上登高的跳(tiào)跃游戏(xì)。一般 其他大模型需要用户把需求(qiú)描述清楚才会输(shū)出一个比较好的答案,但记者(zhě)在这(zhè)次测试中没有(yǒu)进行任(rèn)何的额外提示,o1就输出了一个能 流畅运行,并且(qiě)在(zài)记者眼中看来也足够有趣的小(xiǎo)游戏。

  4)科学类测试

  在科(kē)学类测试方面,记者重点测试了o1-preview在数学和经(jīng)济(jì)学上的表(biǎo)现。

  首先,记者抛出(chū)的是(shì)一个数学(xué)推理问题,向o1-preview询(xún)问解决 欧拉方程有限时间爆破的可能方法(fǎ)(这是著名华裔数学家、菲尔兹奖得主(zhǔ)陶哲轩教授本周(zhōu)才发表的讨论文章(zhāng))。

  o1虽然没有给出明确(què)解法(fǎ),但(dàn)却提供了一个解题思路,这一思路和陶哲轩(xuān)教授文章部分吻(wěn)合(虽然很少)

  经济学方向(xiàng)上,记者(zhě)向o1-preview询(xún)问了一个(gè)复杂的经济(jì)系统问题。从给出(chū)的反馈看,基本(běn)没有什么太(tài)大(dà)的问题,整(zhěng)体逻辑清晰,思考维度也是多样化的,给出的 数学公式(shì)虽然有一点小差错但是(shì)无伤大(dà)体

  5)事实性(xìng)知识与(yǔ)语言理解

  在这一环节 ,记者向o1-preview询问(wèn)了明朝第一任皇帝的趣事,但o1就将(jiāng)趣事(shì)理(lǐ)解成了(le)历史上实际发生过的事情,将朱元璋的历史故(gù)事整个叙述了出来。

  同时,记者也将这一问题丢给了GPT-4o模型,作为对比,GPT-4o能很好地 理解(jiě)记者的问题,并(bìng)讲了两(liǎng)个流传很(hěn)广的民间小故事。

  总体来看,OpenAI宣称o1模型能接近(jìn)人(rén)类水平在(zài)某些方面(miàn)上看起来并不是虚话

  最让记者惊喜的是,OpenAI将模型思考的过程用文(wén)字展示给了(le)用户,文字思(sī)考过(guò)程中,大模(mó)型(xíng)大量使用(yòng)了“我正在“我(wǒ)认为”“我打算(suàn)”等话语,感觉(jué)更加拟人化,就像一个(gè)真人在用户面前阐述(shù)自己的(de)思考逻辑一般。

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”e="font-L">  但这也并不(bù)意味 着o1模型就(jiù)是完美的。OpenAI也承(chéng)认,在(zài)设计、写作、编(biān)辑文字等方面(miàn)上(shàng),o1远不如GPT-4o。o1也没有浏览网页(yè)或处(chù)理(lǐ)文件和图像的能力(lì)。

  而最让记者感到(dào)头疼的是,即使(shǐ)是一个很(hěn)简单的请求(qiú),比如说将输出结果转换为(wèi)中文,o1都(dōu)会消耗十几秒钟(zhōng)的时(shí)间来思考,而GPT4o就会(huì)很快处理好这一(yī)请求。

  就算在(zài)OpenAI的优势领域中,o1模型也会突然出现性能下降,模型输出懒惰的情况。已离职的OpenAI创(chuàng)始人Karpathy就吐槽道:“它一(yī)直拒绝为我(wǒ)解决(jué)黎曼假说。模型懒惰仍(réng)然是一个(gè)主要问(wèn)题。”

  OpenAI表示,公司会在(zài)之后的更(gèng)新中解决这 些问题,毕竟现在这只是推理模型的早期预 览。

责任编辑:刘(liú)明亮

未经允许不得转载:橘子百科-橘子都知道 五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

评论

5+2=