o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

新智元

2024-12-09 12:56发布于北京新智元官方账号

新智元报道

编辑：编辑部 HYZ

【新智元导读】美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？

一年一次的北美最难本科数学竞赛，刚在MIT沃克纪念堂（Walker Memorial）落幕。

这场普特南数学竞赛（Putnam Exam），每年汇聚了来自北美数百所高校的3500多名学生前来参赛。

既有个体，也有团体，他们需要在总时长为6小时的时间内完成作答。

在这场比赛还未开始之前，来自IBM研究员曾暗示，在公开题目发布后，会有人对大模型（AlphaProof、o1、Gemini）进行题目测试。

恰好，OpenAI最近发布了满血版o1，以及最强o1 pro，不知它们在这场考试表现如何？

相较于o1-preview，o1数学性能提升27%，o1 pro提升36%

o1 Pro半小时做出全部赛题

令人吃惊的是，有网友把此次普特南考试的考题给了OpenAI o1 pro。

上下滑动查看

6个小时的赛题，它居然半小时就做出来了！

用时最长的一道题花了6分52秒，最短的只用了1分12秒（上下滑动查看）

详细看了答案的网友们表示松了一口气：o1 pro还远未达到普特南考试的水平。

比如对于A1这道题，虽然它只用了1分钟58秒就做了出来，总体思路也是正确的，但仍有很多错误。

上下滑动查看

A2也没有完全解决。

如果在普特南答卷上写「……等等强烈表明我是对的」，显然你不会得分。

上下滑动查看

A3的答案，是错误的。

网友直接给出了正确的解题思路：可以利用鸽巢原理（抽屉原理）来证明在给定约束条件下，只存在唯一一个有效双射函数，并由此可以推导出不存在满足题目要求的a、b、c、d值。

上下滑动查看

对于B1，答案在n和k的形式上是正确的，但整个证明方法完全站不住脚。

上下滑动查看

总之，o1 pro似乎没有一道题是正确的。

这个结果属实有点惊人，因为其中一些问题难度没有那么高，比一些AIME竞赛题容易。

当然，如果从做出题目的数量来说，o1 pro的表现还是可圈可点。

目前来说，o1 pro做出的题目都是错误且不完整的。如果我们不以数学家的角度评判，可以认为它们很聪明。

更多评测

CodeSignal创始人Tigran Sloyan开启了两轮大测试，让o1 pro分别去解决普特南数学竞赛A1题，以及IMO试题。

显然，在普特南数学竞赛测试中，o1 pro成功做对了第一题。

得分+10，就已经超越了30%的参赛者。

如下，是o1 pro的全部解题过程。

而在IMO测试中，o1 pro完美解决了2006年测试集中最难的Q3题，仅仅用了6分48秒。

相较之下，在2006年全球大约500名19岁以下顶尖数学天才中，只有28人能在4个半小时内完全解出这道题。而美国对的6名成员，却无一人做到。

这是o1 pro的分析过程，虽然很简洁，好像省略了很多证明步骤。

Sloyan特别要求让其展示第4、5步的具体证明过程，o1 pro随后扩展出的思维过程同样令人印象深刻。

而且，他还测试其他模型（包括o1），尝试做这道题目，却都失败了。

没想到，这个结果惊动了xAI科学家Hieu Pham。

他表示，o1 pro的答案完全是胡说八道。如果在IMO竞赛中提交这样的解答，最多也只能给1分（满分7分）。如果遇到宽松的评判员，最多给2分，不会再多了。

他接着称，训练数据问题是一部分，这个答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的题目和解答就像是数学CoT的黄金训练数据集，所以这些模型一会被反复训练无数遍。

另一位研究员Jason Li测试后惊叹道，o1似乎已经解决掉了一半的问题（60分/满分120），这在普特南竞赛的历史排名中大约能冲进前2%的参赛者之列。

o1挑战23年赛题

今年9月，o1发布不久后，AI评估平台HoneyHive曾让新模型去挑战了23年普特南数学竞赛的题目。

当时，OpenAI公开的测试结果显示，o1的数学性能大幅超越了GPT-4o，飙升43.3%实现了质的飞升。

在这场比赛中，o1-preview拿下了79分（满分120）位列第9，o1-mini取得了73，排名第19。

2023年普特南数学竞赛问题集，如下所示：

HoneyHive的评估方法是，每个模型重复运行2次，并让GPT-4o作为标准的判断者，以评估模型的答案，最终再由人类专家进行验证。

下面是让GPT-4o承担「评估者」角色的提示示例。

研究人员发现，第二次运行时，o1-preview得分从51提高到79，o1-mini从54提高到73，GPT-4o也从43提高到57。

在第二轮中，所有的模型都在努力给出证明，具体来说：

o1-preview完全解决了问题A1、A3、B4，部分解决了问题B2，但证明不足。

o1-mini的结果，与o1-preview类似。GPT-4o仅是完全解决了A1问题。

有趣的是，这些模型的结果虽然是正确的，但解决方案缺乏详细的分步解释，特别是对于证明类的问题。

比如，o1-preview和o1-mini在问题B2上都因证据不足、不够严谨失掉了一些分数，尽管最终结果是正确的。

他们认为，这可能是因为AI模型在表达或访问其内部「思维链」时，存在一定的局限性。

不过，IBM研究员表示，能够拿下一定的高分，当然也存在了数据泄露的可能性。

比赛介绍

普特南数学竞赛（全称William Lowell Putnam Mathematical Competition）专为美国和加拿大的本科生设立，每年于12月举办一届，今年是第85届年赛。

每年竞赛一共分为两场考试，分别是上午A试，下午B试，各三小时。

这场比赛可以追溯到1938年，最初只是各个高校数学系之间的友好较量。如今，它已经发展成为世界上最具权威的大学数学竞赛。

每年12月，数百所大学数学尖子生在为期6小时数学中展现自己的数学才华。

尽管考生需要独立完成试卷，但比赛同时设立了团队的环节。

普特南数学竞赛不仅仅是一场知识的较量，更是一个荣誉的殿堂。排名最高的团队的数学系可以获得现金奖励，学生成员还将被授予「普特南研究员」的称号。

与此同时，比赛还设立了「The Elizabeth Lowell Putnam Prize」奖项，专为表现卓越的女性数学家颁奖。

去年第84届比赛中，个体获奖者5名全部来自MIT，团体获奖者前五名也分别来自世界高校：MIT、哈佛、杜克、斯坦福、多伦多大学。

参考资料：

https://x.com/DanHendrycks/status/1865858756040704335

查看原图 73K