假如DeepSeek在溧阳参加“天目杯”理论物理竞赛……

常州发布

2025-01-31 13:55发布于江苏常州市委宣传部新闻发布官方账号

+关注

据微信公众号“中科院物理所”30日消息，近日，中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛，并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试，其中DeepSeek-R1表现最好。

本次测试通过8段对话完成，第一段为开场白，介绍任务和格式要求。随后依次发送7道题目题干（部分题目含图片描述），AI依次回复，中间无人工反馈。随后，将4个模型的答卷分别发送给7位阅卷人，阅卷方式与“天目杯”竞赛一致。最终汇总所有题目得分，结果如下👇

结果点评

1.DeepSeek-R1表现最好。基础题（前三题分数拿满），第六题还得到了人类选手中未见到的满分，第七题得分较低似乎是因为未能理解题干中“证明”的含义，仅仅重述了待证明的结论，无法得分。查看其思考过程，是存在可以给过程分的步骤的，但最后的答案中这些步骤都没有体现。

2.GPT-o1总分与DeepSeek相差无几。在基础题（二题、三题）中有计算错误导致的失分。相比于DeepSeek，o1的答卷更接近于人类的风格，因此以证明题为主最后一题得分稍高。

3.Claude-sonnet可谓“马失前蹄”，在前两题中连出昏招打了0分，但后续表现跟o1相当接近，连扣分点都是类似的。

4.如果将AI的成绩与人类成绩相比较，则DeepSeek-R1可以进入前三名（获特优奖），但与人类的最高分125分仍有较大差距；GPT-o1进入前五名（获特优奖），Claude-sonnet前十名（获优秀奖）。

测试人员表示，AI的思路真的很好，基本上没有无法下手的题，甚至很多时候一下子就能找到正确的思路。但跟人类不同的是，它们在有正确的思路后，会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程，就发现它一早就知道要用简正坐标来做，能想到这一步的考生几乎100%求解出了正确的简正坐标，但是R1似乎是在反复的猜测和试错，到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求，似乎认为能在形式上凑出答案，就算是证明了。另外，AI如同人类，也会出现许多“偶然”错误。比如在模拟测试时Claude-sonnet可以正确解出第一题的答案，但正式测试的那次它就偏偏做错了。

对此你怎么看

快来留言讨论吧

来源：综合自中科院物理所

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。