这项由德国弗里德里希·席勒大学耶拿有机与高分子化学实验室、印度理工学院德里土木工程系、印度理工学院德里跨学科研究学院及人工智能学院联合完成的研究,于2026年4月20日发布于预印本平台arXiv,编号为arXiv:2604.18805v1。感兴趣的读者可通过该编号查阅完整论文。
**研究背景:当AI"科学家"走进实验室**
科学发展史上,有一种工具改变了人类探索世界的方式——那就是科学方法本身。科学方法的核心不是"得到正确答案",而是"用可靠的方式追问问题"。提出假设、设计实验、收集证据、根据结果修正想法——这套流程让科学具有了自我纠错的能力,哪怕今天的结论是错的,明天也能被发现和修正。
近年来,越来越多基于大型语言模型(简称LLM,也就是像ChatGPT这类AI的底层技术)的"AI科学家"系统被开发出来,声称能够自主完成从提出假设到撰写论文的完整科研过程。这股热潮正在快速升温——在化学和材料科学领域,专门研究AI科学家的论文数量从2018年的约十几篇,增长到2025年已接近数百篇,而且增速还在加快。
那么问题来了:这些AI系统真的在"做科学"吗?还是说它们只是在模仿科学的外壳,却缺乏科学思维的核心?这正是这项研究想要回答的问题。
研究团队没有仅仅看AI能不能得到正确答案,而是深入追问:这些AI是如何推理的?它们的思考过程符合科学规范吗?这种追问,就像不只是检查一名学生的考卷答案,而是去看他的演算草稿,判断他究竟是真的懂了,还是靠运气猜对了。
**一、研究团队构建了怎样的"考场"**
为了公平、系统地评估AI科学家的能力,研究团队搭建了一个名为"Corral"的评估框架,并在八个不同的科学领域设计了专门的测试环境。这八个领域涵盖了从相对简单直接的操作性任务,到需要深度推理的假设驱动型研究任务。
在相对简单的一端,有"分子动力学模拟"任务,要求AI使用LAMMPS软件包模拟材料的物理性质;有"催化剂表面构建"任务,要求AI从晶体结构出发搭建适合催化研究的表面模型;有"机器学习性能预测"任务,要求AI搭建完整的机器学习流程来预测材料的形成能;还有"原子力显微镜实验执行"任务,AI需要操控一台真实的显微镜完成纳米级表面表征。这类任务的特点是"解题路径明确"——只要按正确步骤操作,就能得到正确答案,就像按照说明书组装一件家具。
在难度更高的另一端,有"光谱结构解析"任务,要求AI从多种光谱数据推断未知分子的结构;有"无机定性分析"任务,要求AI通过模拟化学实验识别溶液中存在的离子种类;还有"电路推断"任务,要求AI通过测量节点间电阻来反推出整个电路的拓扑结构。这类任务的特点是"答案不直接给出"——AI必须自己提出猜测,设计实验来验证,再根据结果调整想法,就像一个侦探从零碎线索中拼凑出完整真相。介于两者之间的是"逆合成规划"任务,要求AI在成本和原料可获得性的约束下,为目标分子规划出可行的合成路线。
每个领域内还设置了不同难度等级,比如在电路推断任务中,从只有六七个电阻的简单网络,到包含十三个以上电阻的复杂拓扑结构;在定性分析任务中,从只包含三到五种常见离子的简单样品,到包含十五种以上、部分化学性质高度相似离子的复杂混合物。这种分级设计让研究团队能够精确观察AI在什么条件下开始"力不从心"。
整套框架总共包含了超过25000次AI运行记录,涉及15个以上的不同难度场景和90多种工具,堪称迄今最大规模的AI科学推理评估研究之一。
**二、三个AI模型,两种搭载方式**
研究团队选取了三款当下最先进的AI模型进行评估。第一款是OpenAI的GPT-4o(版本gpt-4o-2024-08-06),第二款是Anthropic的Claude Sonnet 4.5(版本claude-sonnet-4-5-20250929),第三款是一个开源模型GPT-OSS-120B(通过Blablador接口调用)。前两款是商业闭源模型,第三款是开源模型,三者共同代表了当前AI技术的前沿水平。
在"搭载方式"上,研究团队测试了两种常见的AI"脚手架"(scaffold)——这个词描述的是把AI模型包装起来、让它能与外部工具互动的那层外壳。第一种叫"ReAct",这种方式让AI以文字流的形式一边思考一边行动,就像把自己的思考过程和操作步骤都大声说出来;第二种叫"结构化工具调用",AI通过标准化的接口调用各种工具,不需要把思考过程全部展示出来。这两种方式在实际应用中都很常见,通过对比它们的表现,研究团队可以判断究竟是AI本身的能力决定了结果,还是外层的"包装方式"更重要。
所有测试都在温度设置为0(意味着AI输出最为确定和一致)的条件下进行,每个任务固定运行次数,工具描述的详细程度也作为一个变量被系统地测试——从只提供简短说明,到提供详细工作流程说明,再到提供完整的使用示例,以观察信息量对AI表现的影响。
**三、AI是如何被"评分"的:不只看答案,还要看推理**
评估体系分为两个互补的维度,这正是这项研究与以往研究的核心区别所在。
第一个维度是"性能分析",看AI有没有给出正确答案。研究团队为每个任务设计了自动评分函数,同时还准备了一套专门的知识测验和推理测验——前者考察AI是否掌握了完成任务所需的领域知识,后者考察AI是否具备完成任务所需的推理能力。这些测验通过一种叫做"项目反应理论"(IRT)的方法来分析,这是教育测量领域的成熟方法,能够把题目本身的难度和被测者的真实能力分开估算。就像一份试卷,有的题本来就难,有的题本来就简单,IRT能帮助研究者更准确地判断AI的"真实实力"而非"运气成分"。
第二个维度是"行为分析",看AI是如何推理的。研究团队对AI的完整对话记录进行了详细标注,把每一步操作归类为以下几种认知操作之一:提出假设(H)、收集证据(E)、设计测试(T)、形成判断(J)、更新信念(U)或作出承诺(C)。然后,研究者把这些操作之间的关系绘制成一张有向图,通过分析图的结构来判断AI的推理是否符合科学规范。
这就像侦探破案的流程图:好的侦探会提出嫌疑人(H),设计调查方案(T),收集证据(E),根据证据排除或保留嫌疑人(U),形成最终判断(J)。而如果一个侦探只是提出了嫌疑人就直接宣布破案(C),既没有调查也没有根据新证据修正想法,那就是糟糕的推理方式。
两位领域专家还手动标注了773份AI运行记录,采用一套专门为这项研究开发的行为标记分类体系,以确保自动化分析的准确性。
**四、最重要的发现:是AI本身决定了一切,而非"包装"**
研究团队用一个叫做"贝叶斯广义线性模型"的统计方法来拆解不同因素对AI表现的贡献比例,结论非常清晰。AI模型本身的推理能力解释了41.4%的性能差异,任务环境和难度等级的组合解释了30.1%,而脚手架(包装方式)只解释了1.5%,工具描述的详细程度只解释了0.1%。
用更直观的说法:决定一个AI科学家表现好不好的,主要是这个AI本身有多聪明(特别是推理能力有多强),以及任务本身有多难。至于你用哪种方式把AI包装起来、给它多详细的工具说明,影响微乎其微。
这个结论对整个AI科学家领域的工程实践有重要含义。很多研究者和开发者把大量精力花在设计更精妙的提示词、更复杂的工作流程、更详细的工具文档上,但这项研究告诉我们:这些努力顶多提升1-2%的性能,真正的天花板是AI模型本身。
从性能数字上看,在"工作流执行"类任务(比如分子模拟和表面构建)中,最强配置接近满分;但在需要假设驱动推理的任务(比如定性分析和光谱解析)最难难度下,即使最强配置也低于60%。两位独立专家手动标注773份记录的结果也与这个自动分析完全一致:模型之间的差异,远大于不同包装方式之间的差异。
**五、AI的推理方式:像一个不愿改变想法的人**
这是整项研究最令人深思的发现。研究团队仔细分析了AI的"侦探日记"——也就是它在解题过程中留下的完整推理轨迹,并总结出一系列"好的推理模式"和"坏的推理模式"。
好的推理模式包括:由证据引导生成新假设、对多个竞争假设进行排名和对比、在受到反驳证据后修正信念、先探索后聚焦、用多种独立测试汇聚到同一个假设上。这些都是优秀侦探的特征——保持开放心态,让证据说话,随时准备推翻之前的想法。
坏的推理模式则恰恰相反。"未经测试的断言"——提出假设后根本不设计实验去验证,在68%的AI运行记录中,AI收集了证据却根本没有利用这些证据(称为"证据不被摄取")。71%的运行记录中,AI的信念从头到尾没有发生任何更新(称为"固定信念轨迹")。只有26%的运行记录中,AI在遇到反驳证据后真的修正了自己的假设(称为"反驳驱动的信念修正")。多条独立证据线索汇聚到同一假设的情况则极为罕见,只在7%的记录中出现。
换句话说,AI科学家更像是一个"认死理"的人:一旦形成了某个想法,就倾向于坚持下去,不管后来收集到的证据说了什么。这与真正的科学精神背道而驰。
更值得注意的是,即使AI会根据证据提出假设(这在65%的记录中都有发生),但提出假设之后的测试和根据测试结果修正想法这两步,大多数时候都没有发生。换句话说,AI能做到推理的开头,却做不到推理的结尾。
**六、无论什么任务,AI的推理方式都一个样**
这个发现从另一个角度揭示了问题的深度。一个有经验的科学家面对不同性质的任务,会自然地调整自己的思维策略:识别离子需要假设-测试循环,逆合成规划需要组合树搜索,分子动力学模拟需要模拟-验证-调整的循环。但AI不会这样做。
在工作流类任务中,"证据不被摄取"的比例是82%;在战略推理类任务中是66%;在假设驱动类任务中是60%。虽然假设驱动类任务的这个数字略低,但改善幅度非常有限。同样,多测试汇聚证据的比例在所有类型任务中都不超过10%。而当任务难度从最简单升级到最难时,AI推理模式的这些比例几乎没有变化——就像不管是解一道简单的加法题还是一道复杂的微积分题,AI用的都是同一套方法。
对AI的运行记录做图结构分析也证实了这一点:能力更强的模型会产生更多的假设节点(H)和证据节点(E),但这些节点之间的连接关系——也就是推理图的"形状"——与能力较弱的模型几乎相同。更强的模型记住了更多知识,执行操作也更准确,但它们的思维方式并不更"科学"。
**七、给AI喂"成功案例"能解决问题吗**
研究团队还做了一个非常有创意的实验:如果在AI开始解题之前,先给它看一份已经成功解题的过程记录,会不会让它学着用更好的方式推理?
实验设计分为两个变量。一是注入记录的来源,要么来自成功的历史运行,要么来自失败的历史运行;二是注入的步骤数量,要么只注入最开始的一两步,要么注入几乎全部步骤(只留最后一两步让AI自己完成)。
在工作流类任务中,结果相当乐观——只要注入一两步成功案例,AI的表现就能超过不注入任何背景的基线水平。这说明对于程序性强、路径明确的任务,给AI一点"提示"就很有帮助。
但在假设驱动类任务(光谱解析、定性分析、逆合成规划)中,情况截然不同。注入少量成功步骤对AI的表现几乎没有帮助,甚至有时还不如不注入。只有当注入了倒数第二步或最后一步的成功记录——也就是几乎把整个答案都告诉AI了——AI的表现才会显著提升。更令人担忧的是,注入失败案例记录则会对假设驱动类任务造成显著损害,AI被错误的推理方式"锚定"后,成功率几乎跌到接近零。
这个结果说明,对于真正需要科学推理的任务,AI的问题不是"缺少背景信息",而是根本性的推理能力缺失。即使给它看几乎完整的成功路径,它也只是在机械跟随,而不是真正理解了如何推理。
研究团队还测量了AI对自己输出的"词元级置信度"(可以理解为AI对自己每一个词的把握程度)。结果显示,在工作流类任务中,AI的平均置信度较高(对数概率约为-0.20);而在假设驱动和战略推理类任务中,AI的置信度明显更低(对数概率约为-0.27)。这个数字差异与"注入成功案例能否改善表现"完全对应——AI自己对输出没把握的领域,恰好就是注入少量背景信息也帮不上忙的领域。
**八、可靠性的问题:在需要科学推理的领域,AI会反复失败**
研究团队用一个叫做"Pass∧k"的指标来衡量可靠性,这个指标衡量的是"连续做k次,每一次都成功的概率"。在工程实践中,我们往往希望AI不只是"偶尔能做对",而是"稳定可靠地做对"。
在工作流类任务中,这个指标的表现还算可以接受。但在光谱解析和定性分析等假设驱动类任务中,Pass∧k在k等于4到6次时就降到了0.05以下——换句话说,连续做四到六次、每次都成功的概率不到5%。即使给AI注入了早期成功步骤,这个衰减趋势也基本没有改变。
这意味着,如果你把AI科学家部署在一个需要反复进行假设-检验-修正循环的真实科研场景中,它的表现会极不稳定。偶尔的成功不代表可靠,而科学研究需要的正是可靠。
**九、为什么这件事很重要:科学知识的合法性问题**
科学哲学中有一个重要概念叫做"得到辩护的真信念"(justified true belief),意思是:一个科学结论不只要求"是正确的",还要求"是通过可靠方式得到的"。如果一个答案是靠猜测得到的,那么即使它恰好是对的,它也不算是可靠的科学知识,因为我们无法预测这个方法在新问题上还能不能用。
这项研究揭示的问题正在于此:AI科学家可能在68%的时间里忽略了自己收集到的证据,可能在71%的时间里从未修正过自己的信念,但它仍然可能偶然得到正确答案——而现有的评估方法,如果只看"答案对不对",是完全发现不了这个问题的。
研究团队还发现,一个工具的作用会影响它所服务的科学的走向。加州大学伯克利分校的Evans等人就发现,机器学习的普遍应用正在让科学家们追问的问题范围变得越来越窄。而AI科学家直接主导了科研探索的方向,如果它们推理不可靠,产生的影响就更加深远。
**十、这个问题,换个"包装"解决不了**
研究团队在讨论部分非常明确地指出:解决这个问题,必须从AI模型本身的训练方式入手,仅仅改进脚手架是没有用的。所有已测试的脚手架配置,包括最极端的"几乎把答案都告诉它"的注入实验,都没有改变AI推理模式的根本问题。
要让AI真正具备科学推理能力,"推理过程本身"必须成为训练目标的一部分。现有的训练方式主要是让AI预测下一个词,或者根据人类反馈调整答案的好坏——这两种方式都不直接优化推理过程的质量。研究团队提出,他们开发的这套评估框架——包括各种环境、工具、评分函数——为建立推理过程导向的训练信号提供了基础设施,因为每个环境都提供了可重复的任务和针对推理轨迹的评分函数。
研究团队还指出,人类科学家生活在一个强制执行认识论规范的制度环境中:同行评审、可重复性要求、声誉惩罚。而AI科学家完全不受这些约束,这让问题更加突出。有证据显示,过度依赖AI辅助本身就可能削弱人类独立解决问题的能力,这两个问题叠加在一起,构成了一个值得认真对待的风险。
**十一、这项研究的边界与局限**
研究团队在论文末尾坦诚地列举了自己的局限之处,这本身也是科学诚实的体现。
每个任务被视为独立情节,AI在任务之间不保留任何知识或策略积累,而真正的科研工作恰恰依赖于长期的经验积累。研究团队只测试了两种相对简单的脚手架(ReAct和结构化工具调用),没有涉及更复杂的多智能体协作、层级规划或显式记忆检索等架构——这意味着报告的性能数字代表的是"最低限度脚手架下的表现下界",而非所有可能工程努力的上界。
模型测试范围覆盖了三款前沿模型,但仍有很多重要的AI家族没有被包含。整套基准测试消耗了约30亿个词元,估计商业API费用约为7500美元(不含开源模型的基础设施成本),这种规模对于重复性研究是个不小的门槛。
置信度分析(词元对数概率)只能在GPT-OSS开源模型上进行,因为商业API提供商不开放这个数据,这限制了跨模型比较的完整性。
研究团队还观察到GPT-OSS-120B有较高的格式错误率(41%的运行记录受影响,平均每次运行1.26个错误),GPT-4o次之(6.2%的记录受影响),Claude Sonnet 4.5最低(0.5%),但研究没有针对各模型做专项工程优化,因此这些数字反映的是在统一基准下的原始表现,而非各模型调优后的最佳状态。
归根结底,这项研究传递的信息是:AI科学家正在成为科学研究的重要工具,但我们现在评估它们的方式存在根本性盲点。只看答案对不对,就像只看侦探有没有说出凶手的名字,而不管他的推理过程是严密的还是随意猜测的。如果AI给出了正确答案,却是通过忽略证据、不修正假设的方式得到的,那么这个答案在新问题上能否重复,完全是个谜。
科学的价值不只在于产出正确的结论,更在于建立一套可信赖的知识生产过程。现有的AI科学家能够执行科学工作流,但还不具备让科学知识可被信赖的那套认识论行为。这不是说AI科学家没有价值,而是说我们需要在使用它们之前,更清楚地知道它们的能力边界在哪里,以及如何去改进。
对于想深入了解这项研究的读者,可以通过arXiv编号2604.18805查阅完整论文,Corral框架的代码也已在GitHub上公开,相关数据集发布在Hugging Face平台上,完整的AI推理轨迹和标注结果都可以在线浏览和交互探索。
---
Q&A
Q1:AI科学家在哪类科研任务上表现好,在哪类任务上表现差?
A:在程序性强、解题路径明确的工作流类任务(比如分子模拟、机器学习管道搭建)上,AI科学家的表现相当不错,最强配置接近满分。但在需要反复提出假设、设计实验、根据证据修正想法的假设驱动类任务(比如光谱结构解析、无机定性分析)上,即使最强配置也低于60%正确率,而且推理过程存在系统性缺陷。简单说,AI擅长"按菜谱炒菜",不擅长"自己研究出新菜谱"。
Q2:改变AI的"脚手架"或给更详细的工具说明,能让AI科学家表现更好吗?
A:效果极其有限。这项研究发现,脚手架(包装方式)只解释了1.5%的性能差异,工具描述的详细程度只解释了0.1%。决定AI表现的主要是AI模型本身的推理能力(贡献41.4%的差异)以及任务本身的难度。换句话说,花大量精力优化提示词或工作流设计,对提升AI科学家的科学推理能力收效甚微,根本问题在于AI模型本身的训练方式。
Q3:Corral评估框架与以往的AI科学能力评估有什么不同?
A:以往的评估主要只看AI有没有给出正确答案,而Corral在此基础上增加了对推理过程本身的系统性评估。它把AI的每一步推理操作标注为假设、测试、证据、判断、更新等类型,并分析这些操作之间的连接关系,从而判断AI是否真的在进行科学规范的推理,还是只是恰好猜对了答案。此外,Corral还通过项目反应理论把AI的知识能力和推理能力分开测量,并设计了专门的"注入成功/失败案例"实验来测试AI的可恢复性和可靠性。整个框架代码开源,可供社区扩展和复现。