五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

　　每经(jīng)记者郑雨航每经实习记(jì)者岳(yuè)楚鹏每经编(biān)辑兰素英

　　传说中的“草(cǎo)莓”模型今天在没有任何预告下忽然上线了！

　　OpenAI最新发布的模(mó)型名为o1，是系列推理(lǐ)模型的首批版本，现阶(jiē)段推出(chū)的是o1-preview（预览版）和o1-mini（迷你版）。

　　目前，o1-preview和o1-mini已经面向ChatGPT Plus和Team订阅用(yòng)户开放，而(ér)Enterprise和Edu用户将于下(xià)周初获得访问权限(xiàn)。OpenAI表示，它计划(huà)向ChatGPT五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”的所有免(miǎn)费用户提供o1-mini访问权限，但尚未确定发布日期。

　　据OpenAI介绍，在解决问题的能力方面，o1模型比以往任何模型都更接近人(rén)类思维，并且能够“推理”数学、编码和科学(xué)任务。

　　为了验证新模型的(de)能力(lì)是否正如OpenAI所宣称的那么强(qiáng)大，《每日经济新闻》记者从经典“草莓(méi)测(cè)试”、代码编写、小游戏制作、数学(xué)与(yǔ)经济(jì)学，以(yǐ)及(jí)事实性知(zhī)识(shí)这五(wǔ)大维度对o1-preview模型进行了测试。

　　结果显示，o1-preview表现出(chū)了超越OpenAI之前发布的大模型的编程和数学推(tuī)理(lǐ)能力。例(lì)如，o1-preview能够编写出(chū)流畅运行(xíng)的代(dài)码，并且在复杂环境中(zhōng)依然能够自行推理出解决方案(àn)。而且，记(jì)者在(zài)测试(shì)过程中也感觉到，o1-preview在人性化方面也有很大的提升，表现出了真人般的思考。不过，新模型也并非毫(háo)无缺点，在事实性知识测试就“翻车”了(le)。

　　当(dāng)地时间9月12日，OpenAI发布了一款名为o1的新模型(xíng)，这(zhè)是其计划中一(yī)系列“推理”模型中(zhōng)的第一个版本，也是此前业界盛传已(yǐ)久的“草莓”模型。

　　对于OpenAI来说，o1代(dài)表着(zhe)它朝着类人AI的目标(biāo)又迈(mài)出了一步(bù)。OpenAI认为，o1代表(biǎo)着一种全新的能力，这一能力被认(rèn)为(wèi)如此重要，以至于公司(sī)决定从当前的GPT-4模型重新开始，完全放弃了(le)“GPT”品牌(pái)，从1开始命名。

　　OpenAI表示，将从当前的GPT-4模型重新开始，“将计数器重置为 1”，甚至放弃了迄今为止定义了聊(liáo)天(tiān)机器人乃至整个生成式AI热潮的(de)“GPT”品牌。o1建(jiàn)立了一个能够通过一系列离散步骤，谨慎而合乎逻(luó)辑地解(jiě)决问题的系统(tǒng)，每个步骤(zhòu)都建立在上(shàng)一个步骤的(de)基础上，类似于人(rén)类的推理方式。

　　OpenAI首席科(kē)学家Jakub Pachocki表示(shì)，之前的模型在收到(dào)用户问询时会立即开始(shǐ)回答。“而这个模型（指的是(shì)o1）会慢慢来(lái)。它思考(kǎo)问题，并尝试分解问题，寻找角度，努力提供最佳答案。”这就像大多数人在幼年(nián)时被父母所要求的那样，先想好再说话。

　　OpenAI表示(shì)，o1在竞赛编程问题（Codeforces）中(zhōng)排名(míng)第89个百分点，在美(měi)国数学奥林匹克竞(jìng)赛（AIME）预选赛中位列美国前500名学生之列，并(bìng)且在(zài)物理、生物和化学问题的基准测(cè)试（GPQA）中超过了人类博士水平的准确度。

　　在OpenAI发布的研究和博客(kè)文章中，o1看起来“推理”能力十分强(qiáng)大(dà)，不仅可解决高级数学和编码问(wèn)题，还能解密复杂的密码，以及解答来自专家学者们(men)关于遗传学、经济学和量子物理学的复杂问题。大量图表显(xiǎn)示，在(zài)内部评估中，o1在编码(mǎ)、数学(xué)和各个科学领域的问题上已经超(chāo)越了公司最先进的语言模型GPT-4o，甚(shèn)至可能超越了人类(lèi)。

　　为了深入了解o1模型的强大(dà)能力，《每日经济新闻》记(jì)者从经典草莓测试(shì)、代码编写、小游戏制作、数学与经济学，以及事实性知识这(zhè)五大维度对o1-preview模型进行了测试。

　　1）草莓测试

　　首先，记者用(yòng)之前几乎所有大模型都“翻车”的一道简单题目进(jìn)行了(le)测试，即(jí)“单词strawberry里面到底有几个r”。从生成的结果看，o1-preview还是带(dài)来(lái)了(le)一(yī)点小惊(jīng)喜的。

　　2）代码编写

　　记者首(shǒu)先向o1-preview询问了一个在线编程平台leetcode里最(zuì)有名的简单算法题：Two Sum（两数之和）问(wèn)题。o1给出了(le)很详尽的推理过程和(hé)答(dá)案。

　　随后记者故意要求优化(huà)答案，o1在思考(kǎo)9秒后意(yì)识到自(zì)己提(tí)供的已经是最优解法了，并就此进行了(le)说明，另外还很“贴心 ”地提(tí)供了一个次优解。而在之前(qián)记者对其他模型的测试中，这(zhè)些模型只会道歉然后将答案更改为次优解。

　　3）小游戏制(zhì)作

　　在o1模(mó)型的演示中，OpenAI演示过(guò)“用一句(jù)话编写(xiě)小游(yóu)戏”的功能。测试过程中，记者让o1-preview帮忙介绍好用的代码工具，并(bìng)协助编写一个(gè)乒乓小(xiǎo)游(yóu)戏。

　　o1-preview仅用了19秒就给出(chū)了一(yī)份能够流畅(chàng)运(yùn)行的代(dài)码，并且附(fù)上了学习指南和鼓励的话语，非常地人性化。

　　为避免o1-preview作(zuò)弊，使用的是记忆能力，而不(bù)是使用推理能力进行回答，记者还请求o1-preview更换了一个代码运行环境：jupyter note。这一运行环境是(shì)针对数(shù)据(jù)分析进行特化的python环(huán)境，开发人员基本不会使用此环境开发小游戏。

　　经过思考后(hòu)，o1依然(rán)给出了一个(gè)可以运行(xíng)的代码。不过，相较(jiào)于之前的代码(mǎ)，这(zhè)份答案有(yǒu)着不少的bug，但这(zhè)也从侧(cè)面说明这(zhè)确(què)实是思考出来的答(dá)案，而不(bù)是训练过程中加入(rù)的标准答(dá)案。

　　为进一步验证o1-preview的创新推理能力，记者随后(hòu)又(yòu)要求模型(xíng)在这个小游(yóu)戏的基础上开发一(yī)个更复杂有趣的小游戏。

　　这下，o1的表现真的有(yǒu)点惊喜。根(gēn)据乒乓游(yóu)戏的碰撞(zhuàng)机(jī)制，该模型自行迭代出了一个向(xiàng)上登高的跳(tiào)跃游戏(xì)。一般其他大模型需要用户把需求(qiú)描述清楚才会输(shū)出一个比较好的答案，但记者(zhě)在这(zhè)次测试中没有(yǒu)进行任(rèn)何的额外提示，o1就输出了一个能流畅运行，并且(qiě)在(zài)记者眼中看来也足够有趣的小(xiǎo)游戏。

　　4）科学类测试

　　在科(kē)学类测试方面，记者重点测试了o1-preview在数学和经(jīng)济(jì)学上的表(biǎo)现。

　　首先，记者抛出(chū)的是(shì)一个数学(xué)推理问题，向o1-preview询(xún)问解决欧拉方程有限时间爆破的可能方法(fǎ)（这是著名华裔数学家、菲尔兹奖得主(zhǔ)陶哲轩教授本周(zhōu)才发表的讨论文章(zhāng)）。

　　o1虽然没有给出明确(què)解法(fǎ)，但(dàn)却提供了一个解题思路，这一思路和陶哲轩(xuān)教授文章部分吻(wěn)合（虽然很少）。

　　经济学方向(xiàng)上，记者(zhě)向o1-preview询(xún)问了一个(gè)复杂的经济(jì)系统问题。从给出(chū)的反馈看，基本(běn)没有什么太(tài)大(dà)的问题，整(zhěng)体逻辑清晰，思考维度也是多样化的，给出的数学公式(shì)虽然有一点小差错但是(shì)无伤大(dà)体。

　　5）事实性(xìng)知识与(yǔ)语言理解

　　在这一环节，记者向o1-preview询问(wèn)了明朝第一任皇帝的趣事，但o1就将(jiāng)趣事(shì)理(lǐ)解成了(le)历史上实际发生过的事情，将朱元璋的历史故(gù)事整个叙述了出来。

　　同时，记者也将这一问题丢给了GPT-4o模型，作为对比，GPT-4o能很好地理解(jiě)记者的问题，并(bìng)讲了两(liǎng)个流传很(hěn)广的民间小故事。

　　总体来看，OpenAI宣称o1模型能接近(jìn)人(rén)类水平在(zài)某些方面(miàn)上看起来并不是虚话。

　　最让记者惊喜的是，OpenAI将模型思考的过程用文(wén)字展示给了(le)用户，文字思(sī)考过(guò)程中，大模(mó)型(xíng)大量使用(yòng)了“我正在”“我(wǒ)认为”“我打算(suàn)”等话语，感觉(jué)更加拟人化，就像一个(gè)真人在用户面前阐述(shù)自己的(de)思考逻辑一般。

五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”e="font-L">　　但这也并不(bù)意味着o1模型就(jiù)是完美的。OpenAI也承(chéng)认，在(zài)设计、写作、编(biān)辑文字等方面(miàn)上(shàng)，o1远不如GPT-4o。o1也没有浏览网页(yè)或处(chù)理(lǐ)文件和图像的能力(lì)。

　　而最让记者感到(dào)头疼的是，即使(shǐ)是一个很(hěn)简单的请求(qiú)，比如说将输出结果转换为(wèi)中文，o1都(dōu)会消耗十几秒钟(zhōng)的时(shí)间来思考，而GPT4o就会(huì)很快处理好这一(yī)请求。

　　就算在(zài)OpenAI的优势领域中，o1模型也会突然出现性能下降，模型输出懒惰的情况。已离职的OpenAI创(chuàng)始人Karpathy就吐槽道：“它一(yī)直拒绝为我(wǒ)解决(jué)黎曼假说。模型懒惰仍(réng)然是一个(gè)主要问(wèn)题。”

　　OpenAI表示，公司会在(zài)之后的更(gèng)新中解决这些问题，毕竟现在这只是推理模型的早期预览。

责任编辑：刘(liú)明亮

未经允许不得转载：橘子百科-橘子都知道五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”