戳破AI for Science幻象,“深度原理”为AI科学能力立下新标尺

欢迎星标 果壳硬科技

 该图片属于AI生成图片


一场大考,结果令人意外。

在全球最顶尖的AI模型频繁"刷榜"时,一个由中国年轻团队领衔的研究将它们拉进了真实的"科学实验室",给所有顶级AI做了场科研项目考试,结果全炸了。

更意味深长的是,OpenAI几乎在同一时间做出了相似的判断。这并非巧合,而是标志着AI for Science整个领域,走到了一个必须重新审视方向的关键路口。

不"答题",考"做研究"

这项引发全球关注的研究,是一篇名叫《Evaluating LLMs in Scientific Discovery》的论文。领衔的并非传统的学术大拿,而是一家中国的初创公司,深度原理(Deep Principle),合作者则包含了麻省理工学院、哈佛、剑桥、牛津在内的全球24所顶尖高校。

论文的作者,是深度原理的联合创始人兼CTO,段辰儒。这位年轻的科学家在MIT读化学博士期间,就已开始推动AI与科学的融合。论文合作者贾皓钧是深度原理CEO。两人都是95后的MIT博士。虽然年轻,这二位却已凭借此前的硬核成果,在领域内声名鹊起。深厚的学术根基与一线产业实践的结合,让他们"一呼百应",摇来了一支24所顶级高校50多位世界级科学家的"梦之队",完成了这次大考。

组织这次大考的核心在于,他们觉得,以前考AI的方式,完全跑偏了。

过去的评测,比如GPQA、MMLU,就像让AI做"五年高考三年模拟"——全是标准化的选择题,考的是记忆和刷题能力。一个模型在这些测试里拿高分,只能说明它知识点背得好,根本不能证明它会"做研究"。

于是,他们打造了一套全新的评测体系科学发现评估(SDE)。这套体系的精髓就一句话:别废话,直接进实验室干活!

在这里,AI面对的不再是孤立的题目,而是一个个完整的科研项目,比如"设计一种新的抗癌药物分子"或者"发现一种超导材料"。AI必须自己走完"提出猜想 → 设计实验 → 分析数据 → 改进猜想"的全流程。

这就好比,以前考试是问你"勾股定理是什么",现在直接把一堆木头扔给你:造一座能承重100公斤的桥,办法自己想。

顶级AI"集体翻车"

GPT-5、Claude、DeepSeek这些"顶级学霸"走进SDE考场后,成绩单炸了。

第一暴击:高分低能,实锤!

这些模型在传统科学考试里,轻松能拿80、90分。但在SDE的实战中,平均分直接掉到50-70分。在最硬核的86道"SDE-Hard"压轴题上,所有模型全军覆没,最高分还不到12分。

这差距,好比一个学生在模拟考次次第一,真让他去实验室做个毕设,直接懵了。

第二暴击:大力出奇迹,失效!

行业里一直有个信念:只要把模型做得更大、算力堆得更猛,性能就能一直涨。但SDE考试发现,这条路走到头了。比如,参数规模恐怖的GPT-5,相比前代在很多科学任务上提升只有3%-5%,有的任务甚至不升反降。

砸钱堆硬件就能赢的时代,可能真的过去了。

最深刻的暴击:大家错得一样!

研究发现,这些来自不同公司、采用不同技术的顶尖模型,不是在各自不同的难题上失误,而是在同一道最难的坎上集体摔跤

这说明问题不是某个公司"技术不行",而是当前所有大模型赖以成功的技术路径,本身就有"天花板"。它们从相似的互联网文本中学,形成了相似的思维盲区。

这份研究,就像给火热的"AI科学家"梦想,泼下了一盆带着冰碴的冷水。它用数据大声说话:现在的AI,更像一个拥有百科全书式记忆的"超级考生",而不是一个能独立探索未知的"科学家"。

为什么OpenAI也神同步了?

几乎是同一时间,OpenAI 也发布了对于 AI 在科学发现领域能力评测的文章《FrontierScience: Evaluating Al’s Ability to Perform Scientific Research Tasks》“概述”,他们推出了一个叫FrontierScience的测试,专门检验AI在高端科学问题上的真实能力。测试包括了多个主流模型,包括:

GPT-4o、o4-mini、o3、GPT-5以及后续、Claude Opus 4.5,Gemini 3 Pro、Grok4。

测试分为两部分:

奥赛题:模仿国际物理、化学、生物奥赛的原创难题。

科研题:由博士和科学家设计,模拟真实研究中会遇到的问题,评分时不仅看答案,还看推理过程。

结果在奥赛题上,GPT-5.2,表现最好,正确率到了77分。但在更开放的科研题上,所有模型表现都明显下降,GPT-5.2 和 GPT-5 在最高,也只有 25分。

为什么会如此"神同步"?这绝不是巧合,而是赛道挤到一定程度后,必然发生的"共识"。

首先,旧的游戏玩不下去了。

当所有人都发现,在旧题库上刷分已经刷到"满分",但模型在真实科研中依然"不好用"。我们到底在为什么而竞赛?一张已经失效的"旧地图",正在把整个行业带向歧途。绘制一张新地图,成了最急迫的事。

其次,深水区到了,得摸着石头过河。

前两年,AI在科研中的应用还是"炫技"阶段,写文献综述、生成代码。现在,大家真想让它去攻克癌症、发现新材料。但一进入深水区,才发现当前的AI"游泳技术"根本不行。是时候停下来,好好评估一下真实的游泳水平了。

最终,这还是一场关于未来的"定义权"之争。

“AI for Science"被认为是通往下一代AI(AGI)的必经之路,是绝对的科技制高点。此时,谁能率先定义"什么是真正的AI科研能力”,谁就掌握了制定下一阶段游戏规则的话语权。中美团队同时出手,就像在起跑线前,同时亮出了自己认为正确的跑道设计图。

未来地图:从"ChatGPT"到"LabGPT"

虽然考试结果有点残酷,但它恰恰为我们画出了一张清晰的未来地图。

告别"全能神",迎接"专业科学家"。幻想一个"什么都懂、什么都能研究"的通用AI科学家,目前看来不现实。未来更可能出现的,是无数个"专业科学家":专攻材料设计的"材料GPT",精通分子合成的"化学GPT",擅长蛋白质折叠的"生物GPT"……它们将深度融入垂直领域的专业工具中,成为科学家的"专家级副驾驶"。

训练方式,得来场"科学方法论"革命

现在的AI是从人类现成的知识中学习。要让它真正会"发现",可能得让它像科学家一样去"实践":在模拟的物理、化学世界里亲手做实验,在试错中总结规律。我们需要给AI注入的不再是海量文本,而是科学思维的内核——假设、验证、因果推理。

人际关系,进入"灵魂伴侣"时代

AI不会取代科学家,但会重新定义科学家的工作。未来的画面可能是,人类科学家是提出终极问题、拥有直觉和审美品味的灵魂;而AI,则是拥有无穷算力、不知疲倦进行海量计算和筛查的"超级躯体"。最好的科研,将来自人类灵感与机器执行力的完美结合。

看清了潮水的真正方向

这份深度原理领衔的大考,与其说得到了一份成绩单,不如说打出了一记响亮的发令枪。

它提示我们,AI在科学领域的探险,刚刚结束在沙滩上捡贝壳的娱乐阶段,真正要驶向未知的深海,要做的不是继续在岸上争论谁的贝壳更漂亮,而是一起动手,建造一艘能经受风浪的新船。

而这场革命的起点,始于我们终于有勇气,看清潮水的真正方向。


论文信息

  • 文章标题:Evaluating Large Language Models in Scientific Discovery

  • 发布期刊:arXiv

  • 发布时间:2025年12月17日


  • 文章标题:FrontierScience: Evaluating AI’s Ability to Perform Scientific Research Tasks

  • 发布期刊:OpenAI官网

  • 发布时间:2025年12月16日


吴欧 | 编辑