随着Gemini 3.0、GPT-5.1的接连发布,AI 的能力边界再次被拓宽。一个令人兴奋的命题已然浮现:LLM 能否突破“解题者”的范畴,进化为能提出新颖科学假设的“科学家”,像爱因斯坦提出相对论、达尔文构想进化论那样,拥有变革式创造力 (Transformational Creativity),创造属于硅基生命的“尤里卡时刻”?
最近一篇题为 《Large Language Models for Scientific Idea Generation》 的重磅综述指出,这并非易事。不同于常规推理,科学创意生成(Scientific Idea Generation)是一个多目标、开放式任务,必须在“新颖性(Novelty)”和“价值性(Soundness)”之间取得极高难度的平衡。
这篇论文独特的通过认知科学的视角,重新审视了LLM的潜力。本文将带你快速深入了解这份60页的硬核报告,从知识增强、提示工程、推理搜索到多智能体协作,全方位看清 AI 科学家进化的全景蓝图。
理论基石:什么是机器的创造力?
在深入技术细节之前,综述首先解决了一个核心理论问题:我们如何定义和衡量 AI 的科学创造力?作者极具洞见地引入了认知科学中的两大经典框架,为 AI 科学发现建立了一套评估坐标系。
1. Rhodes的4P框架:创造力的来源
Rhodes (1961) 将创造力分解为四个维度,这篇综述巧妙地将现有的 LLM 技术映射到了这四个维度上:
Person(人/主体):创造力的内在来源。对应 参数级适配(Parameter Adaptation),即通过微调或强化学习改变模型“大脑”的结构。
Process(过程):思维发生的机制。对应 推理时搜索(Inference-Time Search) 和 多智能体协作(Multi-Agent),即通过算法引导模型的思考路径。
Press(环境/压力):外部环境的刺激。对应 知识增强(Knowledge Augmentation) 和 提示工程(Prompt Engineering),即通过外部信息和约束来激发创意。
Product(产出):最终的成果。对应 评估指标(Evaluation),即我们如何判断一个想法是创新的。
2. Boden的创造力层级:AI到了哪一级?
Boden (2004) 将创造力分为三个层级,这为我们判断当前 AI 水平提供了标尺:
组合式创造力(Combinatorial Creativity):将熟悉的想法进行新的组合。这是目前 LLM 最擅长 的领域。
探索式创造力(Exploratory Creativity):在现有的概念空间和规则下,探索未知的可能性。通过 Tree Search 等技术,LLM 正在迈向这一层级。
变革式创造力(Transformational Creativity):打破现有规则,重塑概念空间本身(如牛顿力学到量子力学)。这是 AI 科学家的终极目标,目前仍是巨大的挑战。
基于这套理论框架,综述将现有的技术流派归纳为五大类(见下图思路),让我们逐一拆解。
第一流派:知识增强,寻找隐秘连接
科学发现往往不是凭空产生的,而是站在巨人的肩膀上。LLM的训练数据截止于过去,而科学前沿日新月异。如何让模型获得“灵感”?
语义检索 vs. 关系检索:不仅仅是 RAG
传统的 RAG(检索增强生成) 依赖于语义相似度。比如你想研究“大模型的幻觉”,RAG 会给你找来一堆关于“幻觉”的论文。综述指出,这种语义检索(Semantic Retrieval) 容易导致“近亲繁殖”,模型倾向于在已知领域内打转,产生的是微小的增量创新。
综述高度推崇关系检索(Relational Retrieval),即基于知识图谱(Knowledge Graphs, KGs) 的增强。
原理:知识图谱不仅仅存储文本,还存储了实体间的结构化关系。
场景:假设你想解决 LLM 的推理错误。
语义检索 会给你找类似 Chain-of-Thought 的论文。
关系检索 可能会通过路径
LLM Reasoning -> linked to -> Neurosymbolic AI -> applied in -> Robotics,启发你将机器人领域的控制理论引入 LLM 推理。价值:这种跨学科的跳跃,正是 组合式创造力 向 探索式创造力 跃迁的关键。
第二流派:提示驱动给思维装上“脚手架”
如果说知识是燃料,那么 Prompt 就是点火器。但这篇综述展示的 Prompt Engineering 远不止“你是一个科学家”这么简单。
1. 逆向与约束:在“受限”中爆发
研究表明,适度的束缚反而能激发创造力。约束基提示(Constraint-Based Queries) 强迫模型跳出舒适区。
Denial Prompting:明确禁止模型使用常规解法。例如:“设计一种减少幻觉的方法,但严禁使用 RAG 或 人工审核”。
Bit-Flip-Spark:这是一个结构化的创意生成框架。
先让模型陈述一个核心假设(Bit),然后强制它反转这个假设(Flip),最后在这个冲突中寻找新的火花(Spark)。这模拟了人类科学家进行“反事实思考”的认知过程。
2. 多语言提示:文化的认知差异
这是一个非常有趣的发现。多语言提示(Multilingual Prompting) 不仅仅是为了翻译。研究显示,不同语言蕴含着不同的文化背景和逻辑范式。用法语或希伯来语向 LLM 提问,往往能激活模型参数中不同的语义区域,从而产生英语 Prompt 无法激发的多样性想法。
第三流派:推理时搜索让 AI 在“沉默”中思考
这可能是目前最接近 OpenAI o1 系列思路的方向。它的核心思想是:不要让模型说完第一句话就结束,而是让它在输出最终答案前,进行大量的、结构化的思维搜索。
幻觉缓解中的搜索机制
1. 搜索机制:从“爬山”到“下棋”
局部搜索(Local Search):比如Self-Refine。模型生成一个想法,自己批评,自己修改。这像是在爬山,容易陷入局部最优,只能做修补工作。
树搜索(Tree Search):如MCTS(蒙特卡洛树搜索)。这就像 AlphaGo 下围棋。模型从一个种子想法出发,衍生出多个分支(Branching),并能够回溯(Backtracking)。综述指出,这种结构化的探索能显著提升 探索式创造力,发现那些“非显而易见”的深层假设。感兴趣您可以看下这篇:
通用问题求解器雏形已现!谷歌DeepMind重磅研究,自主发现40种全新算法
2. 抽象层级的跃迁:Meta-Level 的涌现
搜索不仅仅是在搜“文本”,更是在搜“逻辑”和“代码”。综述将搜索分为三个抽象层级:
假设层(Hypothesis-Level):生成纯文本的科学猜想。
程序层(Program-Level):直接生成可执行的代码或实验方案。比如 CodeScientist,它生成的不是文本建议,而是能在模拟器中运行的 Python 脚本。
元层级(Meta-Level):这是最高级的形态。模型搜索的对象是“搜索策略本身”。例如 Darwin Gödel Machine,它不是在生成代码,而是在进化“自我改进的代码”,修改自己的 Prompt 或推理逻辑。这种自我进化的能力,让我们看到了 变革式创造力 的曙光。
第四流派:多智能体系统辩论产生真理
科学研究从来不是孤独的旅程。多智能体系统(MAS)试图模拟人类科学社区的运作方式。
1. 自动化流水线:效率的极致
像AI Scientist这样的系统,采用的是 流水线(Pipeline) 模式。Agent A 读论文,Agent B 提想法,Agent C 写代码,Agent D 写论文。这主要提升了效率,实现了科研的自动化。
2. 辩论与涌现:智慧的火花
综述更看重的是 基于辩论的协作(Debate & Emergence)。
案例:Multi-Agent Debate (MAD) 框架中,不同视角的 Agent 互相攻击对方的假设,甚至需要一个“裁判 Agent”来定夺。
价值:这种对抗性的交互(Adversarial Interaction)能有效过滤掉平庸的想法,并迫使生成者提出更稳健、更深刻的假设。这正是复杂系统理论中提到的 “涌现性”(Emergence)——群体的智慧超越了个体之和。
第五流派:参数级适配重塑“科学家大脑”
前几种方法都是在模型推理阶段做文章,而这一流派旨在通过训练,直接改变模型的能力。
1. SFT 的双刃剑
监督微调(SFT) 可以让模型学会“像科学家一样说话”,比如 DARWIN 系列模型。但综述警告:SFT 数据集往往是静态的,过度拟合 SFT 可能会导致模型丧失多样性,变成只会背书的书呆子。
2. 创造性偏好优化 (CRPO):为“新颖”打分
为了解决对齐带来的平庸化,研究者提出了 CRPO (Creative Preference Optimization)。
原理:在强化学习的奖励函数中,显式地加入 新颖性(Novelty) 和 多样性(Diversity) 的权重。
效果:模型不仅仅被奖励“回答正确”,还被奖励“回答得与众不同”。这强迫模型去探索概率分布的长尾区域,挖掘那些罕见但有价值的想法。
评估:如何量化“尤里卡时刻”?
如果说生成想法是“油门”,那么评估就是“方向盘”。综述指出,评估(Evaluation)是目前阻碍AI科学发现的最大瓶颈。我们如何判断一个 AI 提出的想法是否具备诺奖潜质?
1. 计算指标:新颖性的数学定义
RND (Relative Neighbor Density):这是一种基于向量空间的指标。它计算一个想法在语义空间中的“孤独程度”。如果一个想法周围很空旷(邻居少),说明它很独特。RND 进一步引入了相对密度,消除了不同学科本身拥挤程度的偏差。
SciND:基于知识图谱的三元组。如果模型生成了
(Transformer, applied_in, Molecular_Biology)这样一个历史上从未出现过的三元组,就被视为新颖。
2. 执行基评估:实践是检验真理的唯一标准
最硬核的评估方式是 Execution-based Evaluation。
模拟器:在材料科学中,AI 提出的新合金配方会被直接输入到物理模拟器(如 DFT 计算)中,验证其稳定性。
湿实验室(Wet-Lab):AI-Coscientist系统甚至连接了真实的机器人实验室。
AI 提出的生物假设会被自动转化为实验指令,由机器人执行 PCR 或细胞培养,最终用真实的实验数据来打分。
未来展望:通往“AI 科学家”的最后几公里
综述在最后列举了未来的方向,这些方向极具启发性:
拥抱开放式探索 (Open-Endedness): 目前的 AI 都是在做“填空题”。未来的 AI 科学家应该像生物进化一样,进行Open-Ended Learning。它不应只有固定的目标,而应具备 “发明新问题” 的能力。算法如 POET 和 Go-Explore 告诉我们,伟大的发现往往是在探索其他事物的过程中意外诞生的。
高保真模拟器 (Domain-Rich Simulators): 依靠昂贵的真实实验是不够的。我们需要为生物、化学、物理建立 数字孪生(Digital Twins)。这些高保真的虚拟世界将成为 AI 科学家的“健身房”,让它们能以极低的成本进行数百万次的试错和迭代。
超越 Next-Token Prediction: 综述深刻地指出,当前的自回归(Auto-regressive) 训练目标可能天生就不适合科学发现。因为它倾向于预测“概率最大”的词,也就是最平庸的词。未来的架构可能需要结合扩散模型(Diffusion Models) 或非自回归生成,以支持更全局、更跳跃的思维模式。
结语
这篇综述向我们展示了,LLM 正在经历一场从“助手”到“合作者”的深刻蜕变。
通过 知识图谱的连接,它们学会了跨界思考;通过 结构化的搜索,它们学会了深思熟虑;通过 多智能体的辩论,它们学会了批判与反思。虽然距离真正的“变革式创造力”还有很长的路要走,但AI科学家的雏形已经显现。
也许在不久的将来,当我们再次看到重大的科学突破时,作者栏里会出现一个我们熟悉又陌生的名字,那不仅是一个工具,而是一位真正的智能探索者。
未来已来,有缘一起同行!