橘子百科-橘子都知道橘子百科-橘子都知道

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

  每经(jīng)记者 郑雨航    每经实习记者 岳楚鹏    每经编辑 兰素英    

  传说中的“草莓”模型今天在没有(yǒu)任何预告下忽然上线了!

  OpenAI最(zuì)新发布的模(mó)型名为(wèi)o1,是系列(liè)推(tuī)理 模型的(de)五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”首(shǒu)批(pī)版本,现阶(jiē)段推出的是o1-preview(预览版)和o1-mini(迷你版

  目前,o1-preview和o1-mini已(yǐ)经(jīng)面向ChatGPT Plus和Team订阅用户开放,而Enterprise和Edu用户将于(yú)下周初获得(dé)访问权限。OpenAI表示,它(tā)计划向ChatGPT的所有免费用户提供o1-mini访问权限,但尚未确定发布日期。

  据OpenAI介绍,在解决问题的能力(lì)方面,o1模型(xíng)比以往任何模型都更接近人类思维,并且能够“推理”数学、编码(mǎ)和科学任务。

  为了(le)验证新模型的能力(lì)是否正如OpenAI所宣称的那么强大,《每日经济新闻(wén)》记者从经典“草莓测试、代(dài)码编写、小游(yóu)戏制作、数学与(yǔ)经济学,以(yǐ)及事实性(xìng)知识这五大维度对o1-preview模型进行了测试。

  结果显示(shì),o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能(néng)力。例如,o1-preview能够编写出流(liú)畅(chàng)运行的代码,并(bìng)且(qiě)在复(fù)杂环境中(zhōng)依然能够自(zì)行推理出解决方案。而且(qiě),记(jì)者(zhě)在测试过程中也(yě)感(gǎn)觉到,o1-preview在人性化方面(miàn)也有很大的提升,表(biǎo)现出了真人般的(de)思考。不过,新模(mó)型也并非(fēi)毫无缺点,在(zài)事实性(xìng)知识测试就“翻车”了。 

  当地时间9月12日,OpenAI发布了(le)一款名为(wèi)o1的新模型,这是其(qí)计划中一系列“推 理(lǐ)”模型中的第一个版本,也是此前(qián)业界盛传已久的“草莓”模型(xíng)。 

  对于 OpenAI来说,o1代表着它朝着(zhe)类人(rén)AI的目标又迈出了一步。OpenAI认为,o1代表着一种全新的能力,这一能力被认为如此重要,以至于(yú)公司决(jué)定从当前(qián)的GPT-4模型重新开始,完全放弃了“GPT”品牌(pái),从1开始(shǐ)命名。 

  OpenAI表示,将从当前的(de)GPT-4模型重新开始 ,“将计数(shù)器重置为 1”,甚至放弃了迄今为止(zhǐ)定义了聊 天机器人(rén)乃至整个生成式(shì)AI热(rè)潮的“GPT”品牌。o1建立了一个(gè)能够通过一系列离散步骤,谨慎而合乎逻辑地解决(jué)问(wèn)题的系统,每个步骤都建立在上一个 步骤的基(jī)础上,类似于人类的推理方式。

  OpenAI首席科(kē)学家Jakub Pachocki表示,之前的模型在收到(dào)用户问询时会立即开始回答。“而这个模型(指的是o1)会慢(màn)慢来。它思(sī)考问(wèn)题,并(bìng)尝(cháng)试分解问题,寻找角度,努力提供最佳答案。”这就(jiù)像大多数人在幼年时被父(fù)母所要求的那样,先想好再说话。

  OpenAI表示,<五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”font cms-style="font-L strong-Bold">o1在竞赛编程问题(Codeforces)中排名(míng)第89个(gè)百(bǎi)分点,在美国数学奥林匹克竞赛(sài)(AIME)预选赛中位列美国前500名学生之列,并且在(zài)物(wù)理、生物和化学问题的(de)基准测(cè)试(GPQA)中超过了人类博士水平的(de)准确度 。

  在OpenAI发布的研究和博客文章中,o1看起(qǐ)来“推理”能 力十(shí)分强大,不仅可解 决高级数学和编码(mǎ)问(wèn)题,还能解密复(fù)杂的密码,以及解答来自(zì)专家学者们关于遗传学、经(jīng)济(jì)学(xué)和量子物(wù)理学的复(fù)杂问题。大量图表(biǎo)显示,在 内部评估中,o1在编码、数学(xué)和各个科学领域的问题上(shàng)已(yǐ)经超(chāo)越了公(gōng)司最先进的语言模型GPT-4o,甚至可能超越了人类。

  为了深(shēn)入(rù)了解(jiě)o1模型的强大能力,《每日经济新闻》记(jì)者从经(jīng)典草莓五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”测试、代码编写、小游戏制作、数学与经济学,以及事实性知识(shí)这五大维(wéi)度对o1-preview模型进行了测(cè)试。 

  1)草莓测试

  首先,记者用之前几乎所(suǒ)有大模型都“翻车”的一道简单题目进行了测试,即“单词strawberry里(lǐ)面到底有几个r。从生(shēng)成的结果看,o1-preview还是带来 了一点小(xiǎo)惊喜的。

  2)代(dài)码编写

  记者首先向(xiàng)o1-preview询问了一个在线(xiàn)编程平台leetcode里最有名的(de)简(jiǎn)单算法题:Two Sum(两数之和)问题。o1给出了很详尽的推(tuī)理(lǐ)过程和答案。

  随后(hòu)记者 故意要求优化答案,o1在思考9秒后(hòu)意识到自己提供(gōng)的已经是最优解法了,并就 此进(jìn)行了说明(míng),另外还很“贴心”地提供了一个次优解。而在之前记者对(duì)其他模型的测试中,这些模型只会(huì)道(dào)歉然后将答案更改为次优 解。

  3)小游戏制作

  在o1模型的(de)演示中(zhōng),OpenAI演示过“用一句话编写(xiě)小(xiǎo)游戏”的功能。测试过程中,记者让o1-preview帮(bāng)忙介绍好用的代码工(gōng)具,并协(xié)助编写一个乒(pīng)乓小游(yóu)戏 。

  o1-preview仅(jǐn)用了19秒就给(gěi)出了一份能够流(liú)畅(chàng)运行的代码,并且附上了学习指南和鼓(gǔ)励的话语,非常地人性化。

  为避免o1-preview作弊,使用的(de)是记忆能力,而不是使用推(tuī)理能力进行回答,记者还请求o1-preview更换了一个代码运行环(huán)境:jupyter note。这一(yī)运行环境是针对数据分析进行特化的python环境,开发(fā)人员基本不会(huì)使用此环境开(kāi)发小游戏(xì)。

  经过思考(kǎo)后,o1依然 给出了(le)一个可以 运行的代码。不过,相较于之前(qián)的代(dài)码,这份答案有着不(bù)少的bug,但这也从侧面说明这确实是思考出来的答案,而不(bù)是训练过程(chéng)中加入的标准答案。

  为(wèi)进一步验证o1-preview的创(chuàng)新推理(lǐ)能(néng)力,记者(zhě)随后又要求模型在这个(gè)小(xiǎo)游戏的基础上开 发一个更复杂有(yǒu)趣的小游戏。

  这(zhè)下,o1的表现真的有点惊喜 。根据乒乓游(yóu)戏的碰撞机制 ,该模型自行迭代出了一个向上登高的跳跃游戏。一(yī)般其他大模型需要用户把需(xū)求描述清楚才会输(shū)出一个比较(jiào)好的答案,但记者在这次测试中没有进行任(rèn)何的额外提示,o1就输出了一个能(néng)流畅运行,并且在记者眼中看来也足够有(yǒu)趣的小游戏。

  4)科(kē)学类测试

  在科学类测试方面,记者重点测试了(le)o1-preview在数学和经济学上的表(biǎo)现(xiàn)。

  首先,记(jì)者抛出的是一个数学推理问(wèn)题,向o1-preview询问 解决欧拉(lā)方程有限(xiàn)时间爆破的可能方法(这是著名华裔数学家、菲尔兹奖得主陶哲轩教授本周才发表的讨(tǎo)论文章)。

  o1虽然没有 给出明确(què)解(jiě)法,但却提供了一个解题(tí)思路,这一思路和陶哲轩教授文章部分吻合(虽然(rán)很少(shǎo))

  经(jīng)济学(xué)方向上,记者向o1-preview询问了一个复杂(zá)的(de)经济系(xì)统问题。从给(gěi)出的反(fǎn)馈看,基本没有什么太(tài)大的问题,整(zhěng)体逻辑(jí)清晰,思考维度也(yě)是多样化的 ,给出的数学公式虽然有一点小差错但是无伤大(dà)体

  5)事实性知识与语言理 解

  在这一环节,记者向(xiàng)o1-preview询问了明朝第(dì)一任皇帝的趣事,但o1就将趣事理解成(chéng)了历史上实(shí)际发(fā)生过的事情,将朱元璋的历史故事(shì)整个叙述了出(chū)来。

  同时 ,记者也(yě)将这一(yī)问题丢给了(le)GPT-4o模型,作为对比,GPT-4o能(néng)很好地理解(jiě)记者的问 题,并讲了两(liǎng)个流传很广的民间 小故事(shì)。

  总体来(lái)看,OpenAI宣称o1模型能接(jiē)近人类水平在某些方面上(shàng)看起来并不是虚话

  最让记者(zhě)惊喜的是,OpenAI将模型思考(kǎo)的过程用文字(zì)展示(shì)给了用(yòng)户,文字思考过程中,大模型大量使用了“我正(zhèng)在“我认为”“我打算”等话语,感觉(jué)更加拟人化,就(jiù)像一个真人在用户面前阐(chǎn)述自己的思考(kǎo)逻辑一般。

  但这也并不意味着o1模型就是(shì)完美的。OpenAI也承认,在设计、写(xiě)作、编辑文字(zì)等方面上,o1远不如GPT-4o。o1也没(méi)有(yǒu)浏览网页(yè)或处理文件和图像的能力(lì)。

  而最让记者感到头疼(téng)的是,即使是(shì)一个很(hěn)简单的请求,比如(rú)说将(jiāng)输出结果转换为中(zhōng)文,o1都会消耗十几秒钟的(de)时间来思考,而GPT4o就会很快处理好这一请求。

  就(jiù)算在(zài)OpenAI的优势领域中(zhōng),o1模型 也会突(tū)然出现(xiàn)性能下降(jiàng),模型(xíng)输出懒惰的情况。已离职的OpenAI创始人Karpathy就吐槽道:“它一直(zhí)拒绝为我解(jiě)决黎(lí)曼假说。模型懒惰仍然是一个主(zhǔ)要问题。”

  OpenAI表示,公司会在之后的更新中解(jiě)决这些问题,毕(bì)竟现在这(zhè)只是(shì)推理模型的(de)早期预览(lǎn)。

责任编辑:刘明亮

未经允许不得转载:橘子百科-橘子都知道 五大维度评测OpenAI全新o1模型:代码编写、游戏制作等能力“惊艳”,事实性知识却“翻了车”

评论

5+2=