撰文丨王聪
编辑丨王多鱼
排版丨水成文
人体是由细胞(Cell)构成的马赛克,其中,免疫细胞通过增强炎症来对抗感染;干细胞可以分化成各种组织;癌细胞避开调控信号而无节制地分裂。然而,尽管这些细胞之间存在显著差异,但这些看上去截然不同的体细胞都携带着(几乎)相同的基因组。
细胞的独特性不仅源于 DNA 的不同,更在于每个细胞对 DNA 的使用方式。换句话说,细胞的特性源自基因表达的变化,即基因在不同时刻的“开启”和“关闭”。细胞的基因表达模式——以 RNA 分子的形式体现,而 RNA 分子本身又是从 DNA 转录而来,基因的表达不仅决定了细胞的类型,还决定了细胞的状态:细胞基因表达的变化可以揭示细胞如何从健康状态转变为炎症状态,甚至癌变。通过测量有或无化学或基因干扰的细胞内的 RNA 转录本,可以训练出能够预测细胞基因表达模式(这是细胞“状态”的关键驱动因素)将如何变化的人工智能(AI)模型。这样的 AI 模型甚至能够预测模型之前未曾遇到的干扰所引发的反应。
大约 90% 的进入临床试验的候选药物最终会失败,原因在于疗效不佳或产生了意外的副作用。研究人员在实验室或患者身上测试的每种药物,本质上都是为以特定方式干扰细胞而量身定制的探针。因此,一个高度预测性的虚拟细胞(Virtual Cell)模型能够帮助研究人员发现新药物,这些药物能够使细胞从“患病状态”转换到“健康状态”,同时减少脱靶效应,从而提高临床试验的成功率。
近日,Arc 研究所发布了其第一代虚拟细胞模型——STATE,该虚拟细胞模型旨在预测各类干细胞、癌细胞和免疫细胞对药物、细胞因子或基因扰动的反应。STATE 模型基于 1.67 亿个细胞的观察数据以及超过 1 亿个细胞的扰动数据进行训练,这些数据涵盖了 70 种细胞系。该论文已于近期发表在了预印本平台 bioRxiv 上。
STATE 的使用很简单:给定一个初始转录组和一个干扰因素,STATE 就能预测 RNA 表达的变化。STATE 由两个相互关联的模块组成——State Embedding(SE)模型和 State Transition(ST)模型。SE 模型基于 1.67 亿个细胞的观测数据进行训练,这些数据是细胞在未受干预情况下的行为测量值,而 ST 模型则基于超过 1 亿个细胞的扰动数据进行训练,即这些细胞对基因变化或小分子的反应情况。
SE 模型将转录组数据转换为计算机更易于理解的平滑多维向量空间,并且对技术噪声更具不变性。相同类型的细胞(比如白血病细胞或神经元)在这个向量空间中会聚集在一起。ST 模型预测细胞在受到给定干扰时如何在学习到的流形的不同部分之间进行转换。该模型基于双向 Transformer 架构构建,其独特之处在于利用了对细胞集的自注意力机制,从而使 ST 模型能够灵活地捕捉生物和技术异质性(例如细胞周期状态或 RNA-seq 数据中的偏差),而无需依赖明确的分布假设。
STATE 是基于超过 1 亿个细胞的单细胞扰动数据(Tahoe-100M、Parse-PMBC、Replogle-Nadig)进行训练的,训练数据量超过了迄今为止的任何其他模型。它在预测新细胞环境中转录组在受到扰动后的变化方面,显著优于现有的最先进的计算方法。在对 Tahoe-100M 进行基准测试时,STATE 在区分扰动效应方面表现出了 50% 的提升,并且在识别真正差异表达基因的准确性方面是现有模型的 2 倍。此外,STATE 也是首个在所有测试中都优于简单线性基线模型的模型。
STATE 最初专注于单细胞 RNA 测序数据建模,因为这是目前研究人员能够以合理成本大规模生成的唯一无偏倚的单细胞分辨率数据。遗憾的是,测序数据通常是纯观察性的,因此通常不足以推断细胞生物学中的因果关系。即使有来自数百万个细胞的观察数据,虚拟细胞模型也无法确定导致观察到的相关性出现的因果效应。了解因果关系对于构建基于生物学机制的真正的“虚拟细胞”模型至关重要。
Arc 研究所的研究团队通过收集大规模的扰动数据来弥补单细胞 RNA 测序数据数据不足:即通过实验(例如使用 CRISPR 基因编辑工具)生成的数据,在实验中特意改变特定基因以观察其对细胞的影响。与观察性数据不同,扰动数据捕捉了基因之间的因果关系,直接反映了潜在的生物学机制。可能需要数万次观察才能推断出两个基因之间的直接相互作用关系,而扰动数据仅通过一次测量就能捕捉到相同的相互作用关系。研究团队以独特的方式将技术开发与机器学习相结合,从而能够迅速扩大数据收集规模,并在建模方法上进行创新。
迄今为止,大多数单细胞数据来自规模较小的研究,其中技术和来源批次的差异降低了跨多个项目无缝整合数据的能力。研究团队开发并推出了 scBaseCount,这是该领域首个 AI 智能体,旨在统一收集和分析单细胞数据,以最大程度减少分析误差。scBaseCount 也是目前最大的单细胞数据开源库。STATE 本身也能够直接建模这些“混杂”因素,这使其能够整合来自世界各地不同实验室的大量不同数据集。
研究团队表,尽管 STATE 只是未来将不断改进的虚拟细胞模型中的第一个版本,但随着虚拟细胞训练数据的增长,其预测准确性也在提高。这似乎是一个显而易见的结果——Scaling Laws(标度律),模型性能随规模(例如参数、数据量、计算量)增长而遵循幂律关系。但实际上,Scaling Laws 在生物学领域直到最近才得以确立,Arc 研究所的研究团队去年发布了 DNA 大语言模型 Evo,首次揭示了 DNA 语言建模中的 Scaling Laws。
STATE 的使用案例可能遵循与蛋白质折叠模型类似的模式——AlphaFold 不仅因为能够准确预测蛋白质结构而变得有用,还因为研究人员找到了将其预测结果整合到工作流程中的方法。例如,通过快速预测蛋白质结构,研究人员能够更快地发现可能与这些蛋白质结合的小分子。
同样,研究人员不仅可以利用 STATE 以及未来的其他模型来模拟细胞对干扰的反应,还可以利用这些预测来提名并实验性地发现新药。
STATE:一种基于 Transfomer 的用于预测细胞集合中的扰动效应的虚拟细胞模型
构建虚拟细胞模型的最终愿景,是帮助科学家探索更广阔的组合可能性空间。任何活细胞都可以通过无数种方式进行改变,而要测试每一种可能的基因突变或药物治疗(比如针对癌细胞的治疗)是不可能的。一个高度预测性的虚拟细胞模型将解决这个问题。STATE 正是朝着这个方向迈出的第一步,其目标是通过未来的迭代的虚拟细胞模型最终达到实验级精度。这将使科学家能够进行数百万次的计算机模拟干预,从而在进行原创性发现的过程中“缩小”他们的假设范围。
为了助力这一愿景,研究团队还推出了 Cell_Eval,这是一个用于虚拟细胞建模的全面评估框架,它超越了该领域传统的基于表达计数等指标的评估方法,纳入了一系列具有生物学相关性和可解释性的指标,重点关注差异表达预测和干扰强度估计。希望 Cell_Eval 能够帮助透明地评估当前及未来各代虚拟细胞模型。此外,Arc 研究所还推出了一个虚拟细胞挑战赛。详情:Arc研究所推出“虚拟细胞”挑战赛,冠军将获10万美元奖励,或催生下一个诺贝尔奖
总的来说,Arc 研究所公布的这个虚拟细胞模型——STATE,希望生物学家们能够使用它,并开始探索将其融入自身工作的途径。
论文链接:
https://www.biorxiv.org/content/10.1101/2025.06.26.661135v1