Gemini3 GPT5.1接连发布,模型越来越强,AI真的能拿诺贝尔奖吗?

随着Gemini 3.0、GPT-5.1的接连发布,AI 的能力边界再次被拓宽。一个令人兴奋的命题已然浮现:LLM 能否突破“解题者”的范畴,进化为能提出新颖科学假设的“科学家”,像爱因斯坦提出相对论、达尔文构想进化论那样,拥有变革式创造力 (Transformational Creativity),创造属于硅基生命的“尤里卡时刻”?

图片

最近一篇题为 《Large Language Models for Scientific Idea Generation》 的重磅综述指出,这并非易事。不同于常规推理,科学创意生成(Scientific Idea Generation)是一个多目标、开放式任务,必须在“新颖性(Novelty)”和“价值性(Soundness)”之间取得极高难度的平衡。

图片

这篇论文独特的通过认知科学的视角,重新审视了LLM的潜力。本文将带你快速深入了解这份60页的硬核报告,从知识增强、提示工程、推理搜索到多智能体协作,全方位看清 AI 科学家进化的全景蓝图。

理论基石:什么是机器的创造力?

在深入技术细节之前,综述首先解决了一个核心理论问题:我们如何定义和衡量 AI 的科学创造力?作者极具洞见地引入了认知科学中的两大经典框架,为 AI 科学发现建立了一套评估坐标系。

1. Rhodes的4P框架:创造力的来源

Rhodes (1961) 将创造力分解为四个维度,这篇综述巧妙地将现有的 LLM 技术映射到了这四个维度上:

图片
  • Person(人/主体):创造力的内在来源。对应 参数级适配(Parameter Adaptation),即通过微调或强化学习改变模型“大脑”的结构。

  • Process(过程):思维发生的机制。对应 推理时搜索(Inference-Time Search) 和 多智能体协作(Multi-Agent),即通过算法引导模型的思考路径。

  • Press(环境/压力):外部环境的刺激。对应 知识增强(Knowledge Augmentation) 和 提示工程(Prompt Engineering),即通过外部信息和约束来激发创意。

  • Product(产出):最终的成果。对应 评估指标(Evaluation),即我们如何判断一个想法是创新的。

2. Boden的创造力层级:AI到了哪一级?

Boden (2004) 将创造力分为三个层级,这为我们判断当前 AI 水平提供了标尺:

  • 组合式创造力(Combinatorial Creativity):将熟悉的想法进行新的组合。这是目前 LLM 最擅长 的领域。

  • 探索式创造力(Exploratory Creativity):在现有的概念空间和规则下,探索未知的可能性。通过 Tree Search 等技术,LLM 正在迈向这一层级。

  • 变革式创造力(Transformational Creativity):打破现有规则,重塑概念空间本身(如牛顿力学到量子力学)。这是 AI 科学家的终极目标,目前仍是巨大的挑战。

基于这套理论框架,综述将现有的技术流派归纳为五大类(见下图思路),让我们逐一拆解。

图片

第一流派:知识增强,寻找隐秘连接

科学发现往往不是凭空产生的,而是站在巨人的肩膀上。LLM的训练数据截止于过去,而科学前沿日新月异。如何让模型获得“灵感”?

图片
语义检索 vs 关系检索

语义检索 vs. 关系检索:不仅仅是 RAG

传统的 RAG(检索增强生成) 依赖于语义相似度。比如你想研究“大模型的幻觉”,RAG 会给你找来一堆关于“幻觉”的论文。综述指出,这种语义检索(Semantic Retrieval) 容易导致“近亲繁殖”,模型倾向于在已知领域内打转,产生的是微小的增量创新。

综述高度推崇关系检索(Relational Retrieval),即基于知识图谱(Knowledge Graphs, KGs) 的增强。

  • 原理:知识图谱不仅仅存储文本,还存储了实体间的结构化关系

  • 场景:假设你想解决 LLM 的推理错误。

    • 语义检索 会给你找类似 Chain-of-Thought 的论文。

    • 关系检索 可能会通过路径 LLM Reasoning -> linked to -> Neurosymbolic AI -> applied in -> Robotics,启发你将机器人领域的控制理论引入 LLM 推理。

  • 价值:这种跨学科的跳跃,正是 组合式创造力 向 探索式创造力 跃迁的关键。

第二流派:提示驱动给思维装上“脚手架”

如果说知识是燃料,那么 Prompt 就是点火器。但这篇综述展示的 Prompt Engineering 远不止“你是一个科学家”这么简单。

图片
当仅靠提示无法打破对齐约束时,解释为什么有时候无论 Prompt 写得再好,模型也给不出有创意的答案。

1. 逆向与约束:在“受限”中爆发

研究表明,适度的束缚反而能激发创造力。约束基提示(Constraint-Based Queries) 强迫模型跳出舒适区。

  • Denial Prompting:明确禁止模型使用常规解法。例如:“设计一种减少幻觉的方法,但严禁使用 RAG 或 人工审核”。

  • Bit-Flip-Spark:这是一个结构化的创意生成框架。

    图片

    先让模型陈述一个核心假设(Bit),然后强制它反转这个假设(Flip),最后在这个冲突中寻找新的火花(Spark)。这模拟了人类科学家进行“反事实思考”的认知过程。

2. 多语言提示:文化的认知差异

这是一个非常有趣的发现。多语言提示(Multilingual Prompting) 不仅仅是为了翻译。研究显示,不同语言蕴含着不同的文化背景和逻辑范式。用法语或希伯来语向 LLM 提问,往往能激活模型参数中不同的语义区域,从而产生英语 Prompt 无法激发的多样性想法

第三流派:推理时搜索让 AI 在“沉默”中思考

这可能是目前最接近 OpenAI o1 系列思路的方向。它的核心思想是:不要让模型说完第一句话就结束,而是让它在输出最终答案前,进行大量的、结构化的思维搜索

图片

幻觉缓解中的搜索机制

1. 搜索机制:从“爬山”到“下棋”

  • 局部搜索(Local Search):比如Self-Refine。模型生成一个想法,自己批评,自己修改。这像是在爬山,容易陷入局部最优,只能做修补工作。

  • 树搜索(Tree Search):如MCTS(蒙特卡洛树搜索)。这就像 AlphaGo 下围棋。模型从一个种子想法出发,衍生出多个分支(Branching),并能够回溯(Backtracking)。综述指出,这种结构化的探索能显著提升 探索式创造力,发现那些“非显而易见”的深层假设。感兴趣您可以看下这篇:

图片

通用问题求解器雏形已现!谷歌DeepMind重磅研究,自主发现40种全新算法

2. 抽象层级的跃迁:Meta-Level 的涌现

搜索不仅仅是在搜“文本”,更是在搜“逻辑”和“代码”。综述将搜索分为三个抽象层级:

  • 假设层(Hypothesis-Level):生成纯文本的科学猜想。

    图片
  • 程序层(Program-Level):直接生成可执行的代码或实验方案。比如 CodeScientist,它生成的不是文本建议,而是能在模拟器中运行的 Python 脚本。

    图片
  • 元层级(Meta-Level):这是最高级的形态。模型搜索的对象是“搜索策略本身”。例如 Darwin Gödel Machine,它不是在生成代码,而是在进化“自我改进的代码”,修改自己的 Prompt 或推理逻辑。这种自我进化的能力,让我们看到了 变革式创造力 的曙光。

    图片

第四流派:多智能体系统辩论产生真理

科学研究从来不是孤独的旅程。多智能体系统(MAS)试图模拟人类科学社区的运作方式。

图片
假设评估中的内部自信度 vs 同行智能体

1. 自动化流水线:效率的极致

AI Scientist这样的系统,采用的是 流水线(Pipeline) 模式。Agent A 读论文,Agent B 提想法,Agent C 写代码,Agent D 写论文。这主要提升了效率,实现了科研的自动化。

图片

2. 辩论与涌现:智慧的火花

综述更看重的是 基于辩论的协作(Debate & Emergence)

  • 案例Multi-Agent Debate (MAD) 框架中,不同视角的 Agent 互相攻击对方的假设,甚至需要一个“裁判 Agent”来定夺。

  • 价值:这种对抗性的交互(Adversarial Interaction)能有效过滤掉平庸的想法,并迫使生成者提出更稳健、更深刻的假设。这正是复杂系统理论中提到的 “涌现性”(Emergence)——群体的智慧超越了个体之和。

第五流派:参数级适配重塑“科学家大脑”

前几种方法都是在模型推理阶段做文章,而这一流派旨在通过训练,直接改变模型的能力。

图片
材料科学中 SFT 增强的问答 (SFT-Enhanced Question Answering in Materials Science)

1. SFT 的双刃剑

监督微调(SFT) 可以让模型学会“像科学家一样说话”,比如 DARWIN 系列模型。但综述警告:SFT 数据集往往是静态的,过度拟合 SFT 可能会导致模型丧失多样性,变成只会背书的书呆子。

2. 创造性偏好优化 (CRPO):为“新颖”打分

为了解决对齐带来的平庸化,研究者提出了 CRPO (Creative Preference Optimization)

  • 原理:在强化学习的奖励函数中,显式地加入 新颖性(Novelty) 和 多样性(Diversity) 的权重。

  • 效果:模型不仅仅被奖励“回答正确”,还被奖励“回答得与众不同”。这强迫模型去探索概率分布的长尾区域,挖掘那些罕见但有价值的想法。

评估:如何量化“尤里卡时刻”?

如果说生成想法是“油门”,那么评估就是“方向盘”。综述指出,评估(Evaluation)是目前阻碍AI科学发现的最大瓶颈。我们如何判断一个 AI 提出的想法是否具备诺奖潜质?

1. 计算指标:新颖性的数学定义

  • RND (Relative Neighbor Density):这是一种基于向量空间的指标。它计算一个想法在语义空间中的“孤独程度”。如果一个想法周围很空旷(邻居少),说明它很独特。RND 进一步引入了相对密度,消除了不同学科本身拥挤程度的偏差。

  • SciND:基于知识图谱的三元组。如果模型生成了 (Transformer, applied_in, Molecular_Biology) 这样一个历史上从未出现过的三元组,就被视为新颖。

2. 执行基评估:实践是检验真理的唯一标准

最硬核的评估方式是 Execution-based Evaluation

  • 模拟器:在材料科学中,AI 提出的新合金配方会被直接输入到物理模拟器(如 DFT 计算)中,验证其稳定性。

  • 湿实验室(Wet-Lab)AI-Coscientist系统甚至连接了真实的机器人实验室。

    图片

    AI 提出的生物假设会被自动转化为实验指令,由机器人执行 PCR 或细胞培养,最终用真实的实验数据来打分。

未来展望:通往“AI 科学家”的最后几公里

综述在最后列举了未来的方向,这些方向极具启发性:

  1. 拥抱开放式探索 (Open-Endedness): 目前的 AI 都是在做“填空题”。未来的 AI 科学家应该像生物进化一样,进行Open-Ended Learning。它不应只有固定的目标,而应具备 “发明新问题” 的能力。算法如 POET 和 Go-Explore 告诉我们,伟大的发现往往是在探索其他事物的过程中意外诞生的。

  2. 高保真模拟器 (Domain-Rich Simulators): 依靠昂贵的真实实验是不够的。我们需要为生物、化学、物理建立 数字孪生(Digital Twins)。这些高保真的虚拟世界将成为 AI 科学家的“健身房”,让它们能以极低的成本进行数百万次的试错和迭代。

  3. 超越 Next-Token Prediction: 综述深刻地指出,当前的自回归(Auto-regressive) 训练目标可能天生就不适合科学发现。因为它倾向于预测“概率最大”的词,也就是最平庸的词。未来的架构可能需要结合扩散模型(Diffusion Models) 或非自回归生成,以支持更全局、更跳跃的思维模式。

结语

这篇综述向我们展示了,LLM 正在经历一场从“助手”到“合作者”的深刻蜕变。

通过 知识图谱的连接,它们学会了跨界思考;通过 结构化的搜索,它们学会了深思熟虑;通过 多智能体的辩论,它们学会了批判与反思。虽然距离真正的“变革式创造力”还有很长的路要走,但AI科学家的雏形已经显现。

也许在不久的将来,当我们再次看到重大的科学突破时,作者栏里会出现一个我们熟悉又陌生的名字,那不仅是一个工具,而是一位真正的智能探索者。

未来已来,有缘一起同行!

图片