客户端
游戏
无障碍

1

评论

2

2

手机看

微信扫一扫,随时随地看

假如DeepSeek在溧阳参加“天目杯”理论物理竞赛……

据微信公众号“中科院物理所”30日消息,近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用DeepSeek-R1GPT-o1Claude-sonnet三个AI模型对竞赛试题进行了测试,其中DeepSeek-R1表现最好。

本次测试通过8段对话完成,第一段为开场白,介绍任务和格式要求。随后依次发送7道题目题干(部分题目含图片描述),AI依次回复,中间无人工反馈。随后,将4个模型的答卷分别发送给7位阅卷人,阅卷方式与“天目杯”竞赛一致。最终汇总所有题目得分,结果如下👇

图片


结果点评

1.DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。


图片

2.GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。


图片

3.Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。


图片

4.如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。



测试人员表示,AI的思路真的很好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看R1的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎100%求解出了正确的简正坐标,但是R1似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。还有就是所有的AI似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。另外,AI如同人类,也会出现许多“偶然”错误。比如在模拟测试时Claude-sonnet可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。
对此你怎么看
快来留言讨论吧



来源:综合自中科院物理所

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部