Nat Compu Sci + NAR丨刘琦教授团队发展基于子任务分解的单细胞扰动预测的AI新范式和开发单细胞扰动组学数据资源

图片

引言

解析基因功能对于理解复杂生物学过程、揭示疾病的发生发展机制以及新药研发等均具有重要的意义。单细胞遗传扰动测序正成为解析基因功能与复杂基因调控关系的新技术手段。利用基因扰动组学测序技术(例如Perturb-seq、CROP-seq等),我们能够在单细胞层面检测特定基因扰动后细胞转录谱层面的变化,进而关联特定扰动和表型,进一步开发有效的干预和治疗手段。然而,潜在的基因扰动组合空间非常巨大,通过暴力搜索等实验测序手段探索如此庞大的组合空间并不可行。除此之外,单细胞扰动测序技术尚处于发展阶段,测序成本昂贵,进一步限制了对于多细胞系扰动数据的获取。因此,领域内亟需开发能够适用多种场景(单基因扰动、多基因扰动以及跨细胞系扰动)的单细胞扰动预测模型,以推动基因功能和复杂调控关系的解析和相关干预研究。

目前主流的单细胞扰动预测和分析方法主要分为三类:第一类方法是以CellOracle和SCENIC+为代表的基于基因调控网络构建的扰动预测建模,然而该类方法的准确性通常受限于调控网络的有效构建;第二类方法是以CPA和GEARS为代表的扰动表征方法,该类方法展现了其在单基因和多基因扰动上的有效性,但是在进行多细胞系的泛化时仍面临困难,限制了其应用范围;第三类方法是以scGPT、Geneformer以及scBERT为代表的单细胞大模型,这类方法能够产生可泛化至多细胞系的广义基因表征,进而在下游扰动预测任务上进行应用,但仍然缺乏对其扰动预测性能的系统性评估,已有研究表明,这些预测相较于简单线性拟合方法并没有显著提升。综上,领域内亟待对现有的单细胞扰动预测方法进行系统评估,并进一步发展普适、有效、高泛化性的单细胞扰动预测策略。

近日,同济大学生命科学与技术学院生物信息学系、同济大学-上海自主智能无人系统科学中心刘琦教授课题组在Nature Computational Science上发表了题为:Toward subtask-decomposition-based learning and benchmarking for predicting genetic perturbation outcomes and beyond的研究论文。该论文提出了一种基于子任务分解的灵活、普适且高效的单细胞扰动预测AI框架——STAMP (SubTAsk decomposition Modeling for genetic Perturbation prediction),并建立了基于子任务分解的扰动预测的系统评估体系,旨在提升和评估模型在单基因扰动、多基因扰动以及跨细胞系扰动场景下的泛化能力,进一步推动单细胞扰动组学的智能解析和相关应用。

图片


单细胞扰动数据通常存在高维度、高噪声、强稀疏性、强异质性的数据特点,这使得直接对其进行有效建模具有挑战性。通过深入探究扰动预测问题的本质,该问题可以被分解为三个层级递进的子问题:(1)鉴定受扰动后的差异基因;(2)鉴定这些差异基因受扰动后的基因表达变化方向;(3)鉴定这些基因受扰动后的表达谱变化数值。面向该三个子问题,STAMP创新性地提出了一种分而治之(Divide-and-Conquer)策略,将单细胞扰动预测任务分解为该三个层级递进的子任务,从而形成一种普适、有效的计算模型,同时建立了一种基于子任务分解的扰动预测的系统评估体系。具体来说,在第一个子任务中,STAMP通过学习基因的表征空间到扰动后差异基因空间的映射来预测扰动后的差异基因。由于扰动后变化的基因具有非常强的稀疏性,该任务可以被认为是扰动特异性的一种隐空间嵌入,从而提升模型在后续子任务中的信噪比。在第二个子任务中,STAMP通过学习基因表征空间到扰动后基因表达变化方向空间的映射来预测扰动后基因的变化方向,以刻画基因受到扰动后的调控轨迹。第二个子任务也可以作为第三个子任务的进一步约束,使得第三个子任务的预测难度进一步降低。第三个子任务则在第二个子任务的基础上,进一步定量预测受扰动后差异基因表达变化的具体数值。在实现过程中,STAMP以一种多任务学习 (Multi-task learning) 的形式来对模型进行优化。同时,基于该子任务分解策略,STAMP可以作为一个插件 (Plug-in),以兼容任一来自单细胞大模型的基因表征或者是可学习的动态基因表征来进行基因扰动预测,从而具有高度的灵活性和普适性。

图片

图1:STAMP框架图(Credit: Nature Computational Science


该工作中,研究团队首先在单基因扰动、多基因扰动以及跨细胞系扰动三种测试场景下,从三个子任务的角度对CPA,GEARS,scGPT,Geneformer、 scBERT以及STAMP进行了全面系统的评估。其中scGPT+STAMP (利用scGPT的基因表征作为STAMP的输入) 在此全面的评估体系下,展现出了卓越的性能。研究团队随后将scGPT+STAMP应用于两种扰动解析场景:(1)新细胞系下的关键调控基因和通路的识别:该任务利用新细胞系下的少量单细胞扰动数据对STAMP进行小样本学习。结果显示,相较于其它方法,利用子任务分解的策略能够显著提升在小样本场景下的关键调控基因识别的准确性以及下游通路识别的一致性;(2)多种基因互作(GI,Gene Interaction)的识别:该任务系统探究了不同模型对于包括加性(Additive)、协同(Synergy)、抑制(Suppression)、新形态(Neomorphic)、冗余(Redundancy)、上位(Epistasis)在内的6种GI的识别能力。由于GI的判定准则对于模型GI鉴定能力的评估具有重要的影响,研究团队基于决策树开发了更加有效准确的GI判定准则,并利用该准则系统评估了不同模型在GI识别上的性能。结果显示,STAMP在GI有效识别上依然具有优势。

图片




参考文献




责编|探索君

排版|探索君