+关注

手机看

微信扫一扫，随时随地看

谷歌发布 AI co-scientist：独自提出可验证科学假设，已有多项科研成果

学术头条

2025-02-20 17:04发布于北京科技领域创作者学术头条官方账号

+关注

AI划重点 · 全文约3212字，阅读需10分钟

1.谷歌推出虚拟科学合作伙伴AI co-scientist，旨在帮助人类科学家加速科学发现。

2.AI co-scientist基于Gemini 2.0构建，通过自动反馈迭代生成、评估和优化假设。

3.在药物再利用、靶点发现和抗菌药耐药性机制等领域，AI co-scientist已产生有希望的早期成果。

4.然而，AI co-scientist仍存在局限性，如增强文献综述、事实核查等与外部工具的交叉检查。

5.未来，谷歌将继续改进AI co-scientist，以应对更多学科专家和多样化研究目标的大规模评估。

以上内容由腾讯混元大模型生成，仅供参考

提出一个新颖可行的研究方向，并清楚地知道如何进行后续的探索，对于加速科学发现至关重要。

然而，对于人类科学家而言，这是一个既有广度又有深度的难题，不仅需要了解本领域的最新进展，还需要整合陌生领域的知识。

今天，谷歌推出的虚拟科学合作伙伴 AI co-scientist，或许可以在「帮助人类追求科学进步」这件事上大有可为。

论文链接：

https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

据介绍，AI co-scientist 是一个基于 Gemini 2.0 构建的多智能体 AI 系统，旨在反映科学方法的推理过程，发掘新的、原创性的知识。它并非要实现科学过程的自动化，而是一个“帮助专家收集研究成果和完善其工作的协作工具”、“虚拟的科学合作伙伴”。

自此，人类科学家只需使用自然语言指定一个研究目标——例如，更好地了解一种致病微生物的传播——AI co-scientist 便会提出可验证假设，以及相关已发表文献的摘要和可能的实验方法。

谷歌首席执行官 Sundar Pichai 在 X 上表示，在 AI co-scientist 的帮助下，人类科学家已经“在肝纤维化治疗、抗菌素耐药性和药物再利用等重要研究领域看到了有希望的早期成果”。

赋能人类科学家，加速科学发现

根据谷歌官方博客的介绍，AI co-scientist 使用了一系列专业化的智能体（涉及生成、反思、排序、进化、接近和元评审），这些智能体受到科学方法本身的启发，并通过自动反馈来迭代生成、评估和优化假设，从而形成一个自我改进的循环，生成越来越高质量和新颖的输出。

，时长00:13

视频｜AI co-scientist 概述

AI co-scientist 专为协作而构建，科学家可以通过多种方式与系统互动，包括直接提供自己的不成熟想法来探索，或用自然语言对生成的输出提供反馈。AI co-scientist 还使用网页搜索和专门的 AI 模型等工具，来提高生成假设的基础和质量。

图｜AI co-scientist 的不同组成部分，以及其与科学家之间的互动模式。

AI co-scientist 能够将指定的目标解析为研究计划配置，并由监督智能体（Supervisor agent）进行管理。监督智能体将专业智能体分配到工作队列中，并分配资源。这个设计使得 AI co-scientist 能够灵活地扩展计算能力，并通过迭代改进其科学推理能力，以实现指定的研究目标。

图｜AI co-scientist 系统概览。专业智能体（红色方框，具有独特的角色和逻辑）；科学家输入和反馈（蓝色方框）；系统信息流（深灰色箭头）；智能体间反馈（智能体部分内的红色箭头）。

扩展测试时计算，进行高级科学推理

AI co-scientist 利用测试时计算扩展，进行迭代推理、演化和改进输出。关键的推理步骤包括基于自我博弈的科学辩论（用于生成新的假设）、排名赛（用于进行假设比较），和“演化”过程（用于提高质量）。该系统的代理（agentic）特性促进了递归的自我批判，包括使用反馈工具完善假设和建议。

AI co-scientist 的自我完善依赖于从其竞赛中得出的 Elo 自动评估指标。由于 Elo 评分在系统中的核心作用，谷歌团队评估了更高的 Elo 评分是否与更高的输出质量相关，并分析了 Elo 自动评分与 GPQA 基准测试准确率在具有挑战性的钻石问题集中的一致性，结果表明，较高的 Elo 评分与较高的正确答案概率呈正相关。

图｜AI co-scientist（蓝线）和 Gemini 2.0（红线）回答 GPQA 钻石问题的平均准确率，按 Elo 评级分组。Elo 是一种自动评估，并非基于独立的基本事实。

7 位领域专家策划了 15 个开放式研究目标和他们专业领域的最佳解决方案。通过使用自动化的 Elo 评分指标，谷歌团队观察到，AI co-scientist 在这些复杂问题上的表现优于其他 SOTA 智能体和推理模型，这体现了利用科学方法中的归纳偏差进行测试时计算的优势。随着系统在推理和改进上花费更多时间，自我评分的结果质量也得到了提升，并超过了其他模型和无辅助的人类专家。

图｜AI co-scientist 的性能随着系统计算时间的增加而提高。这可以从自动 Elo 指标比其他基线逐步提高中看出。上图为评级最佳的假设的 Elo，下图为前 10 名假设的平均 Elo。

在一个包含 11 个研究目标的较小子集上，专家们评估了 AI co-scientist 生成的结果在新颖性和影响力方面与其他相关基准相比的表现，并且提供了整体偏好。尽管样本量较小，但专家们评估认为 AI co-scientist 在新颖性和影响力方面具有更高的潜力。此外，这些人类专家的偏好似乎与之前介绍的 Elo 自动评估指标一致。

图｜人类专家认为，AI co-scientist 的成果具有更高的新颖性和影响力（上图），与其他模型相比更受青睐（下图）。

在真实世界的表现如何？

为了评估该系统新颖预测的实际效用，谷歌团队评估了端到端的实验室实验，在 3 个关键的生物医学应用中探究了 AI co-scientist 生成的假设和研究建议：药物再利用、提出新的治疗靶点以及阐明抗菌药耐药性的机制。这些实验都涉及专家参与的指导：

1.急性髓性白血病的药物再利用

药物开发是一个日益耗时且昂贵的过程，新疗法需要针对每个适应症或疾病重新启动发现和开发过程的多个方面。为了应对这一挑战，药物再利用技术为现有药物发现了超出其原始用途的新治疗应用。然而，由于这项任务的复杂性，它需要广泛的跨学科专业知识。

谷歌团队应用AI共同科学家来协助预测药物再利用的机会，并与其团队合作伙伴一起，通过计算生物学、专家临床反馈和体外实验来验证预测结果。

值得注意的是，AI共同科学家提出了急性髓性白血病（AML）的新型再利用候选药物。随后的实验验证了这些提议，确认所提议的药物在多个AML细胞系中，在临床相关浓度下抑制了肿瘤细胞的存活能力。

图｜由 AI co-scientist 预测的急性髓细胞性白血病再利用药物之一的剂量-反应曲线。在临床相关浓度下，KIRA6 可抑制 KG-1（急性髓系白血病细胞株）的活力。以较低的药物浓度降低癌细胞活力具有多种优势，例如，它可以降低产生脱靶副作用的可能性。

2.推动肝纤维化的靶点发现

识别新治疗靶点比药物再利用更为复杂，往往会导致体外和体内实验的假设选择效率低下、优先级排序不当。AI 辅助的靶点发现有助于简化实验验证过程，从而降低研发时间成本。

谷歌团队以肝脏纤维化为重点，测试了 AI co-scientist 提出、排列和生成靶点发现假设和实验方案的能力。AI co-scientist 通过在人类肝脏器官组织（源自人类细胞的三维多细胞组织培养物，旨在模拟人类肝脏的结构和功能）中识别具有显著抗纤维化活性的临床前证据基础的表观遗传靶点，证明了其潜力。

图｜AI co-scientist 建议的肝纤维化靶点治疗与纤维化诱导剂（阴性对照）和抑制剂（阳性对照）的比较。AI co-scientist 建议的所有治疗方法都显示出良好的活性（所有建议药物的 p 值均小于 0.01），包括可能逆转疾病表型的候选药物。

3.解释抗菌药耐药性机制

作为第三项验证，谷歌团队侧重于提出假设，解释与抗菌药耐药性（AMR）相关的细菌基因转移进化机制，即微生物进化出的抵抗治疗感染药物的机制。这是另一个复杂的挑战，涉及到理解基因转移的分子机制（共轭、转导和转化），以及推动 AMR 基因传播的生态和进化压力。

在此测试中，专家研究人员指示 AI co-scientist 探讨一个已在他们小组中取得新发现，但尚未公开的主题，即解释衣壳形成的噬菌体诱导型染色体岛（cf-PICI）如何在多种细菌物种中存在。

AI co-scientist 独立提出了“cf-PICI 与不同噬菌体尾部相互作用以扩大其宿主范围”的观点。在使用 AI co-scientist 之前，谷歌团队已经在原始的实验室实验中验证了这一发现。这展示了 AI co-scientist 作为辅助技术的价值，因为它能够利用数 10 年的研究成果，包括之前所有关于这一主题的开放存取文献。

局限性与展望

在技术报告中，谷歌团队也讨论了 AI co-scientist 的几个局限性和改进机会，包括增强文献综述、事实核查、与外部工具的交叉检查、自动评估技术，以及涉及更多学科专家和多样化研究目标的大规模评估。

他们也表示，AI co-scientist 代表了向 AI 辅助技术迈出的重要一步，有助于科学家加速发现。其在多个科学和生物医学领域生成新颖、可验证的假设的能力，以及通过增加计算能力进行递归自我改进的能力，展示了它在加速科学家应对科学和医学重大挑战方面的潜力。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。