Cell | 前瞻性分析:AI智能体赋能生物学发现

DRUGAI

今天为大家介绍的是来自哈佛医学院Marinka Zitnik团队的一篇论文。作者设想“AI科学家”是能够进行批判性学习和推理的系统,它们通过协作型智能体整合AI模型、生物医学工具和实验平台,从而推动生物医学研究的发展。这些生物医学AI智能体并不是要将人类排除在发现过程之外,而是将人类的创造力与专业知识,与AI在分析大型数据集、探索假设空间以及执行重复性任务方面的能力结合在一起。


AI智能体在各种任务中将表现出色,包括规划发现工作流程、进行自我评估以识别并弥补知识空白。这些智能体利用大语言模型和生成模型,具备结构化记忆能力以实现持续学习,并使用机器学习工具整合科学知识、生物学原理和理论。AI智能体的应用领域广泛,包括虚拟细胞模拟、表型的可编程控制、细胞电路设计以及新疗法的开发等方面。

图片

人工智能(AI)的长期目标是开发能够进行重大科学发现、自主学习和知识获取的系统。尽管“AI科学家”这一概念具有前瞻性,但基于智能体的AI技术的进步为实现这一目标铺平了道路。


AI智能体可以将复杂的生物学问题分解为可操作的子任务,通过协调大语言模型(LLM)、机器学习(ML)工具和实验平台等,提升发现效率。AI智能体能够自动化重复任务,分析大数据集,探索假设空间,并提供比传统方法更快、更精准的研究流程。这些能力不仅能帮助人类科学家,还能在时间和空间尺度上提供实验数据之外的预测和洞察。

图片

图 1


如图1所示,LLM、跨模态学习和生成模型的进步使这一愿景成为可能。例如,GPT-4等优化对话的LLM可以通过反馈实现与人类和其他智能体的合作,识别知识缺口并改进解决方案。然而,仅依赖传统预训练模型不足以支持AI生成创新性假设,因为模型的创造力和科学知识结合能力有限。


作者提出,AI科学家可以通过人类、LLM、ML模型及实验平台共同组成的复合系统实现。AI智能体需要具备提出假设、批判性评估、识别不确定性并不断优化知识库的能力,同时适应快速变化的生物学数据,平衡新旧知识的存储与应用。


在实际应用中,生物医学AI智能体可用于虚拟细胞模拟、表型可编程控制、细胞电路设计和新疗法开发。例如,AI可模拟细胞过程,预测基因修改或药物处理对细胞行为的影响;或使用CRISPR技术进行基因编辑,精确研究基因功能。此外,AI还能设计并优化基因电路,用于环境监测或治疗蛋白的生产。同时,生物医学AI的使用带来伦理挑战,包括潜在的环境风险和对人类科学家的影响。此外,当前缺乏足够的大规模、多样化实验数据,限制了AI在结构生物学和细胞生物学等领域的全面应用。因此,责任化实施和有效的安全保障对于AI智能体的开发至关重要。


数据驱动模型在生物医学研究中的发展应用

在过去几十年中,数据驱动模型通过开发数据库(DBs)、搜索引擎、机器学习以及交互式和基础学习模型,重塑了生物医学研究(图2)。这些模型通过挖掘生物医学数据,在蛋白质、基因、表型、临床结果以及化学化合物的建模方面取得了显著进展。

图片

图 2


数据库与搜索引擎

在生物研究中,数据库(DBs)通过整合实验和研究数据,提供标准化的生物数据词汇和可检索资源。例如,AlphaFold蛋白质结构数据库包含超过2亿个由AlphaFold预测的蛋白质结构。分子搜索引擎(如FoldSeek)通过将查询结构转化为3D交互字母序列并使用预训练矩阵,从这些数据库中检索信息。然而,传统搜索引擎仅能基于特定查询获取信息,缺乏通过推理优化查询或定制后续操作的能力。尽管数据库通过数据整理减少了误导信息的风险,但仍缺乏识别和去除无关信息的机制。


与此不同,AI智能体具备推理能力,可生成搜索查询并获取相关信息。整理后的数据库提供结构化和准确的信息,减少AI智能体潜在的幻觉风险。例如,检索增强生成(RAG)可使AI智能体回答基于科学文献的问题,并能根据需要检索信息,迭代处理所得内容。这种反思过程提高了智能体的可控性,允许根据任务需求定制操作,超越传统搜索引擎的能力。


机器学习模型

ML模型擅长识别模式并整合潜在知识,用于预测新数据。然而,现有ML模型通常需要为每个任务开发专门模型,缺乏AI智能体具备的推理和交互能力。例如,AlphaFold通过深度学习和多序列比对准确预测3D蛋白质结构,但仅限于蛋白质折叠任务。AI智能体是在ML模型基础上的进化,结合Transformer架构和生成式预训练等技术,具备推理和交互能力,能评估动态环境,更适合建模复杂的生物系统。


交互式学习模型

交互式学习,包括主动学习和强化学习,通过探索机制和人类反馈推动ML模型的发展。主动学习通过选择重要数据点标注,优化小样本数据集的学习过程。强化学习通过环境中的试错过程,使智能体通过观察过去的行为结果学习行动策略。在生物研究中,交互式学习已用于小分子设计、蛋白质设计、药物发现、实验设计和癌症筛查。例如,GENTRL利用强化学习探索化学空间,识别针对生物靶点的化合物。然而,交互式模型多用于狭窄领域,难以适应新目标而无需重新训练。AI智能体借助交互式学习在信息检索任务中更具自主性,如通过人类反馈强化学习(RLHF)使用奖励模型,使基于LLM的智能体更自然地理解人类指令。


AI智能体

生物医学AI智能体具备高级能力,包括通过感知模块主动获取信息、使用工具交互、推理,以及从环境中学习。智能体可利用实验设备等外部工具,通过集成视觉ML工具接收环境信息,并结合搜索引擎和ML工具处理多种数据,生成并基于科学证据优化假设。


生物医学AI智能体的类型

当前,生物医学AI智能体主要依赖大语言模型,通过对单一模型的编程使其承担多种角色。然而,未来多智能体系统(图1)或许会成为新的趋势。这种系统融合了多种机器学习工具、领域专用工具以及人类专家,能处理更多非文本型的生物医学任务,适用范围比单一LLM更广。


基于LLM的AI智能体

基于LLM的智能体通过编程实现多角色功能,例如对话接口(图3A),以模拟人类专家的知识和能力。这种方法依赖预训练LLM来获取基础知识,并通过领域微调获取专业能力。指令微调让LLM更善于理解生物学任务的指令,而人类反馈强化学习(RLHF)则能优化模型输出,使其更贴近人类的需求。例如,GPT-4在医学多选题测试中表现优于专用LLM(如BioGPT和Med-PaLM)。研究提出三种方法来为LLM分配角色:领域微调、上下文学习和自动生成角色。实例如Coscientist,它通过GPT-4扮演科研助手角色,整合搜索工具、文档查阅和代码执行完成化学实验任务。多智能体系统通过任务分解,使各智能体分别处理特定子任务,克服单一LLM的局限。这种系统类似于跨学科研究团队,每个智能体具备专门能力,并共同完成复杂任务。

图片

图 3


多智能体系统的五种协作设计

  • 头脑风暴型智能体(图3B):通过多个智能体和科学家共同探讨研究方向,提出多样化创意。例如,在阿尔茨海默病研究中,微胶质细胞智能体可能提出探讨突触修剪的影响,而神经退行性变智能体则建议研究神经营养因子的保护作用。

  • 专家咨询型智能体(图3C):智能体提供专业分析和建议,如协助科学家诊断复杂疾病。

  • 研究辩论型智能体(图3D):分组辩论对立观点,推动批判性思维和科学创新。

  • 圆桌讨论型智能体(图3E):智能体通过多轮对话达成共识,以改进研究结果。

  • 自驱实验室型智能体(图3F):在科学家指导下,独立完成假设生成、实验设计与数据分析全过程,显著提升研究效率。


AI智能体的自主性水平及应用

AI智能体可根据假设生成、实验设计与执行以及推理能力分为四个自主性水平(见表1)。每个水平的智能体需在所有能力领域达标。


表 1

图片

1. Level 0:无AI智能体

使用ML工具辅助科学家生成假设,无法独立设计或验证假设。例如,AlphaFold-Multimer预测蛋白相互作用,为假设生成提供支持。


2. Level 1:研究助手

科学家设置假设,智能体完成特定任务并使用有限工具支持研究。例如,ChemCrow结合链式推理和ML工具优化有机化学任务,AutoBa执行多组学分析。此类智能体能力有限,无法突破科学家预设范围。


3. Level 2:协作者

智能体与科学家协作改进假设,使用更广泛的工具独立执行任务并优化实验设计。例如,分析遗传数据预测药物效果,或通过闭环整合数字和实验平台优化细胞模型。


4. Level 3:科学家

智能体可自主生成超出现有研究范围的新假设并探索复杂科学问题,如开发新统计方法识别基因变异或设计分子探针探索未解决的化学生物学问题。


对于具体领域的应用而言,在遗传学上可以从Level 1任务(如GWAS分析基因型数据)到Level 3应用,智能体可自动生成假设,协调研究小组,并开发低成本的非侵入性DNA采集方法。在细胞生物学中,Level 1智能体整合多组学数据辅助实验设计,Level 3智能体则结合高通量平台与数字模型,自动识别知识缺口并探索细胞间动态交互的新方向。在化学生物学领域,Level 0工具预测分子结构,Level 2智能体设计实验并优化分子探针,而Level 3智能体则解决“不可药靶点”等复杂问题,扩展实验能力至全新时空尺度。


AI智能体开发路线图

AI智能体作为由多个模块组成的复合系统,包括感知、交互、记忆和推理模块,这些模块支持智能体与人类和实验环境互动(图4)。智能体通过感知周围环境获取信息,并通过记忆和推理完成任务。模块化设计使智能体动态适应用户需求,自动整合新工具并优化研究流程。

图片

图 4


1. 感知模块

支持智能体从多模态数据(如文本、图像、视频、蛋白质结构等)中提取信息。通过自然语言或多模态对齐方法,感知模块将不同形式的数据转化为智能体可处理的统一格式。


2. 交互模块

支持智能体与人类、其他智能体及工具互动。包括自然语言对话、工具调用及多智能体协作,增强智能体在复杂生物医学任务中的灵活性。例如,ChemCrow结合工具解决化学问题,RoCo通过多机器人协作完成复杂任务。


3. 记忆模块

- 长期记忆:存储基本知识和实验记录,支持未来任务执行。可通过模型微调或外部知识库更新。

- 短期记忆:临时存储当前任务相关信息,支持动态调整策略。


4. 推理模块

- 直接推理:基于当前状态规划任务,例如链式推理(CoT)逐步分解任务。

- 基于反馈的推理:结合实验或人类反馈优化计划,通过自检与反思机制提高推理质量。

图片

图 5


在一项已发表的研究中(图5E),展示了一个假想的AI智能体如何通过感知、交互、记忆和推理模块,设置实验来研究果蝇线粒体DNA的选择性去除。研究过程中,智能体将任务划分为更小的部分,由不同的模块处理。这种方法借鉴了模块化和顺序生物信息学工作流程的成功经验。与传统的静态生物信息学流程不同,AI智能体是动态的,能够根据科学家的具体指令和需求,学习新工具并调整工作流程。例如,AI智能体可以在整合多种组学数据时,尝试并创建新的方法,突破现有的技术限制。


在图5A中,作者展示了智能体如何回顾类似蛋白质的实验,以指导针对特定蛋白质的抑制剂设计。通过直接推理,智能体可以提出关于信号通路中蛋白质靶点的假设,并设计实验来测试候选蛋白质的作用(图5C)。


挑战

这篇文章概述了在生物医学研究中实施AI智能体的关键步骤,并指出了可能受益的领域。然而,随着多智能体系统的引入(图6),作者仍面临许多挑战。

图片

图 6


部署智能体系统,特别是表1中提到的第2和第3级智能体,存在生成不可靠预测的障碍,包括虚构信息、推理错误、系统性偏见,以及在连接工具和实验平台时的规划失败。这些问题可能因为智能体对自身知识盲点的缺乏认识,以及对查询表述的高度敏感而加剧,尤其是在基于LLM的智能体中。这些行为源于模型的训练方式,特别是自回归损失函数,它将预测的词序列与训练数据中的实际序列进行比较。模型的性能受三个因素影响:输入的概率分布、生成的输出序列,以及训练过程中遇到的不同任务的频率。因此,当任务偏离训练时的假设,模型性能会下降。


对输入和任务概率的敏感性也解释了各种提示技术的成功。这些技术通过提供丰富的上下文、推理步骤或示例,提高了任务和输入的概率,从而提升模型性能。然而,编写高质量的提示需要大量经验和专业知识。即使是最先进的模型,在需要物理行动的真实世界任务中仍然表现不佳,这对具身智能体是一个障碍。虽然将连续的传感器数据嵌入语言模型可以有所改进,但对物理交互和长远规划的理解仍有限。


展望

生物医学研究正处于由AI推动的深刻变革中。目前,AI多用于低风险的辅助任务,未来目标是开发基于智能体的系统,这些系统结合LLM、ML工具和实验平台等协作工作。通过构建安全测试环境(沙盒环境),智能体能够从错误中学习,逐步优化实验设计流程并主动填补知识空白。同时,为确保AI在实际应用中的可靠性和安全性,需要通过多场景评估测试其行为,并依据伦理规范和安全指南进行约束,特别是在技术初期,通过限制功能范围降低风险。


在错误管理和治理方面,AI智能体应具备内外部错误诊断和缓解能力,通过反思性推理和异常检测模型实现问题定位与修正。此外,多学科协作的非盈利机构可制定伦理与技术标准,并通过国际合作填补监管空白。负责任的人机合作和全面治理框架将释放AI在生物医学研究中的潜力,推动重大突破,最终改善人类健康与福祉。

编译|于洲

审稿|王梓旭