五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

　　每经(jīng)记者郑雨航每经实习记者岳楚鹏每经编辑兰素英

　　传说中的“草莓”模型今天在没有(yǒu)任何预告下忽然上线了！

　　OpenAI最(zuì)新发布的模(mó)型名为(wèi)o1，是系列(liè)推(tuī)理模型的(de)五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”首(shǒu)批(pī)版本，现阶(jiē)段推出的是o1-preview（预览版）和o1-mini（迷你版）。

　　目前，o1-preview和o1-mini已(yǐ)经(jīng)面向ChatGPT Plus和Team订阅用户开放，而Enterprise和Edu用户将于(yú)下周初获得(dé)访问权限。OpenAI表示，它(tā)计划向ChatGPT的所有免费用户提供o1-mini访问权限，但尚未确定发布日期。

　　据OpenAI介绍，在解决问题的能力(lì)方面，o1模型(xíng)比以往任何模型都更接近人类思维，并且能够“推理”数学、编码(mǎ)和科学任务。

　　为了(le)验证新模型的能力(lì)是否正如OpenAI所宣称的那么强大，《每日经济新闻(wén)》记者从经典“草莓测试”、代(dài)码编写、小游(yóu)戏制作、数学与(yǔ)经济学，以(yǐ)及事实性(xìng)知识这五大维度对o1-preview模型进行了测试。

　　结果显示(shì)，o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能(néng)力。例如，o1-preview能够编写出流(liú)畅(chàng)运行的代码，并(bìng)且(qiě)在复(fù)杂环境中(zhōng)依然能够自(zì)行推理出解决方案。而且(qiě)，记(jì)者(zhě)在测试过程中也(yě)感(gǎn)觉到，o1-preview在人性化方面(miàn)也有很大的提升，表(biǎo)现出了真人般的(de)思考。不过，新模(mó)型也并非(fēi)毫无缺点，在(zài)事实性(xìng)知识测试就“翻车”了。

　　当地时间9月12日，OpenAI发布了(le)一款名为(wèi)o1的新模型，这是其(qí)计划中一系列“推理(lǐ)”模型中的第一个版本，也是此前(qián)业界盛传已久的“草莓”模型(xíng)。

　　对于 OpenAI来说，o1代表着它朝着(zhe)类人(rén)AI的目标又迈出了一步。OpenAI认为，o1代表着一种全新的能力，这一能力被认为如此重要，以至于(yú)公司决(jué)定从当前(qián)的GPT-4模型重新开始，完全放弃了“GPT”品牌(pái)，从1开始(shǐ)命名。

　　OpenAI表示，将从当前的(de)GPT-4模型重新开始，“将计数(shù)器重置为 1”，甚至放弃了迄今为止(zhǐ)定义了聊天机器人(rén)乃至整个生成式(shì)AI热(rè)潮的“GPT”品牌。o1建立了一个(gè)能够通过一系列离散步骤，谨慎而合乎逻辑地解决(jué)问(wèn)题的系统，每个步骤都建立在上一个步骤的基(jī)础上，类似于人类的推理方式。

　　OpenAI首席科(kē)学家Jakub Pachocki表示，之前的模型在收到(dào)用户问询时会立即开始回答。“而这个模型（指的是o1）会慢(màn)慢来。它思(sī)考问(wèn)题，并(bìng)尝(cháng)试分解问题，寻找角度，努力提供最佳答案。”这就(jiù)像大多数人在幼年时被父(fù)母所要求的那样，先想好再说话。

　　OpenAI表示，<五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”font cms-style="font-L strong-Bold">o1在竞赛编程问题（Codeforces）中排名(míng)第89个(gè)百(bǎi)分点，在美国数学奥林匹克竞赛(sài)（AIME）预选赛中位列美国前500名学生之列，并且在(zài)物(wù)理、生物和化学问题的(de)基准测(cè)试（GPQA）中超过了人类博士水平的(de)准确度。

　　在OpenAI发布的研究和博客文章中，o1看起(qǐ)来“推理”能力十(shí)分强大，不仅可解决高级数学和编码(mǎ)问(wèn)题，还能解密复(fù)杂的密码，以及解答来自(zì)专家学者们关于遗传学、经(jīng)济(jì)学(xué)和量子物(wù)理学的复(fù)杂问题。大量图表(biǎo)显示，在内部评估中，o1在编码、数学(xué)和各个科学领域的问题上(shàng)已(yǐ)经超(chāo)越了公(gōng)司最先进的语言模型GPT-4o，甚至可能超越了人类。

　　为了深(shēn)入(rù)了解(jiě)o1模型的强大能力，《每日经济新闻》记(jì)者从经(jīng)典草莓五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”测试、代码编写、小游戏制作、数学与经济学，以及事实性知识(shí)这五大维(wéi)度对o1-preview模型进行了测(cè)试。

　　1）草莓测试

　　首先，记者用之前几乎所(suǒ)有大模型都“翻车”的一道简单题目进行了测试，即“单词strawberry里(lǐ)面到底有几个r”。从生(shēng)成的结果看，o1-preview还是带来了一点小(xiǎo)惊喜的。

　　2）代(dài)码编写

　　记者首先向(xiàng)o1-preview询问了一个在线(xiàn)编程平台leetcode里最有名的(de)简(jiǎn)单算法题：Two Sum（两数之和）问题。o1给出了很详尽的推(tuī)理(lǐ)过程和答案。

　　随后(hòu)记者故意要求优化答案，o1在思考9秒后(hòu)意识到自己提供(gōng)的已经是最优解法了，并就此进(jìn)行了说明(míng)，另外还很“贴心”地提供了一个次优解。而在之前记者对(duì)其他模型的测试中，这些模型只会(huì)道(dào)歉然后将答案更改为次优解。

　　3）小游戏制作

　　在o1模型的(de)演示中(zhōng)，OpenAI演示过“用一句话编写(xiě)小(xiǎo)游戏”的功能。测试过程中，记者让o1-preview帮(bāng)忙介绍好用的代码工(gōng)具，并协(xié)助编写一个乒(pīng)乓小游(yóu)戏。

　　o1-preview仅(jǐn)用了19秒就给(gěi)出了一份能够流(liú)畅(chàng)运行的代码，并且附上了学习指南和鼓(gǔ)励的话语，非常地人性化。

　　为避免o1-preview作弊，使用的(de)是记忆能力，而不是使用推(tuī)理能力进行回答，记者还请求o1-preview更换了一个代码运行环(huán)境：jupyter note。这一(yī)运行环境是针对数据分析进行特化的python环境，开发(fā)人员基本不会(huì)使用此环境开(kāi)发小游戏(xì)。

　　经过思考(kǎo)后，o1依然给出了(le)一个可以运行的代码。不过，相较于之前(qián)的代(dài)码，这份答案有着不(bù)少的bug，但这也从侧面说明这确实是思考出来的答案，而不(bù)是训练过程(chéng)中加入的标准答案。

　　为(wèi)进一步验证o1-preview的创(chuàng)新推理(lǐ)能(néng)力，记者(zhě)随后又要求模型在这个(gè)小(xiǎo)游戏的基础上开发一个更复杂有(yǒu)趣的小游戏。

　　这(zhè)下，o1的表现真的有点惊喜。根据乒乓游(yóu)戏的碰撞机制，该模型自行迭代出了一个向上登高的跳跃游戏。一(yī)般其他大模型需要用户把需(xū)求描述清楚才会输(shū)出一个比较(jiào)好的答案，但记者在这次测试中没有进行任(rèn)何的额外提示，o1就输出了一个能(néng)流畅运行，并且在记者眼中看来也足够有(yǒu)趣的小游戏。

　　4）科(kē)学类测试

　　在科学类测试方面，记者重点测试了(le)o1-preview在数学和经济学上的表(biǎo)现(xiàn)。

　　首先，记(jì)者抛出的是一个数学推理问(wèn)题，向o1-preview询问解决欧拉(lā)方程有限(xiàn)时间爆破的可能方法（这是著名华裔数学家、菲尔兹奖得主陶哲轩教授本周才发表的讨(tǎo)论文章）。

　　o1虽然没有给出明确(què)解(jiě)法，但却提供了一个解题(tí)思路，这一思路和陶哲轩教授文章部分吻合（虽然(rán)很少(shǎo)）。

　　经(jīng)济学(xué)方向上，记者向o1-preview询问了一个复杂(zá)的(de)经济系(xì)统问题。从给(gěi)出的反(fǎn)馈看，基本没有什么太(tài)大的问题，整(zhěng)体逻辑(jí)清晰，思考维度也(yě)是多样化的，给出的数学公式虽然有一点小差错但是无伤大(dà)体。

　　5）事实性知识与语言理解

　　在这一环节，记者向(xiàng)o1-preview询问了明朝第(dì)一任皇帝的趣事，但o1就将趣事理解成(chéng)了历史上实(shí)际发(fā)生过的事情，将朱元璋的历史故事(shì)整个叙述了出(chū)来。

　　同时，记者也(yě)将这一(yī)问题丢给了(le)GPT-4o模型，作为对比，GPT-4o能(néng)很好地理解(jiě)记者的问题，并讲了两(liǎng)个流传很广的民间小故事(shì)。

　　总体来(lái)看，OpenAI宣称o1模型能接(jiē)近人类水平在某些方面上(shàng)看起来并不是虚话。

　　最让记者(zhě)惊喜的是，OpenAI将模型思考(kǎo)的过程用文字(zì)展示(shì)给了用(yòng)户，文字思考过程中，大模型大量使用了“我正(zhèng)在”“我认为”“我打算”等话语，感觉(jué)更加拟人化，就(jiù)像一个真人在用户面前阐(chǎn)述自己的思考(kǎo)逻辑一般。

　　但这也并不意味着o1模型就是(shì)完美的。OpenAI也承认，在设计、写(xiě)作、编辑文字(zì)等方面上，o1远不如GPT-4o。o1也没(méi)有(yǒu)浏览网页(yè)或处理文件和图像的能力(lì)。

　　而最让记者感到头疼(téng)的是，即使是(shì)一个很(hěn)简单的请求，比如(rú)说将(jiāng)输出结果转换为中(zhōng)文，o1都会消耗十几秒钟的(de)时间来思考，而GPT4o就会很快处理好这一请求。

　　就(jiù)算在(zài)OpenAI的优势领域中(zhōng)，o1模型也会突(tū)然出现(xiàn)性能下降(jiàng)，模型(xíng)输出懒惰的情况。已离职的OpenAI创始人Karpathy就吐槽道：“它一直(zhí)拒绝为我解(jiě)决黎(lí)曼假说。模型懒惰仍然是一个主(zhǔ)要问题。”

　　OpenAI表示，公司会在之后的更新中解(jiě)决这些问题，毕(bì)竟现在这(zhè)只是(shì)推理模型的(de)早期预览(lǎn)。

责任编辑：刘明亮

未经允许不得转载：橘子百科-橘子都知道五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”