随着空间转录组技术的发展,我们面临数据异构和整合难题。作者希望通过创新的方法,突破单一模态的限制,实现多源数据的深度融合,从而揭示组织结构与功能的复杂关系,推动生命科学研究迈上新台阶。
导 读
当前,空间转录组技术逐渐成熟,但在数据整合、空间结构解析及动态变化研究方面仍面临挑战。准确理解组织中细胞及其基因产物的空间分布、相互作用和随时间变化,对于疾病机制和发展治疗策略具有重大意义。本文提出的stSCI方法,融合单细胞和空间转录信息,为高精度、多角度的组织研究提供了强大工具。
图1 图文摘要
在生命科学研究中,单细胞(SC)转录组学能精确描绘单个细胞的基因表达谱,但丢失了其在组织中的空间位置信息;而空间转录组学(ST)保留了空间背景,却也面临着固有的‘两难困境’:基于测序的方法虽然能全景式扫描基因,但分辨率较低;而基于成像的方法虽能实现精准的单细胞定位,却只能检测预设的有限基因,难以一览转录组表达的全貌。如何有效整合两类数据以构建高分辨率、全转录组的空间图谱,成为计算生物学面临的关键挑战之一。
为应对这些挑战,我们开发了名为stSCI的多任务学习框架。stSCI的核心创新在于其 “融合模块”设计,它采用一个共享的图注意力网络(GAT)作为编码器,将来源不同、特性各异的SC和ST数据投射到一个经过批次校正的统一低维“嵌入空间”中。这种设计不仅巧妙地消除了数据间的技术壁垒,还最大程度地保留了具有生物学意义的真实信号。
图2 stSCI框架总览
stSCI框架的核心优势在于其“一站式”的分析能力。它通过一个统一的模型,能够高效地支持多种关键的下游分析任务,在与现有主流方法的对比测试中,其综合性能展现了稳健且优越的表现。
图3 异构数据整合关键下游分析任务
1. 空间切片的功能域识别:在复杂的生物组织中,细胞并非随机堆积,而是形成具有特定功能的结构单元,即“功能域”,例如大脑皮层的不同分层、肿瘤组织中的癌巢与免疫浸润区。准确识别这些功能域并解析其细胞组成,是理解组织结构与功能的基础。stSCI能够精确地识别出组织内具有不同功能和细胞构成的空间区域。
图4 stSCI空间域识别性能评估
利用单细胞数据作为“参考图谱”,stSCI在处理不同物种、不同平台的数据时,展现了其广泛的适用性。例如,在不同物种的大脑皮层数据集上,stSCI均能准确地识别出精细的皮层分层结构。该框架同时兼容基于测序和基于成像这两类主流的空间转录组学数据,证明了其应用的灵活性。
2. 3D组织结构的结构解析:生命活动是在三维空间中动态进行的,单个二维切片仅仅是复杂器官的一个“横截面”,无法完整展现组织的空间邻接关系和整体结构。因此,将连续的二维空间转录组数据整合到统一嵌入空间,以进行三维的空间结构解析,对于理解器官结构、疾病演进过程等至关重要。
图5 stSCI对3D小鼠胚胎的组织结构识别
通过整合连续的二维组织切片数据,stSCI能够重建并识别出发育中小鼠胚胎的三维组织结构。实验结果显示,stSCI重建的肝脏、神经系统等器官的3D形态,与已知的该类器官特异性生物学标志物基因的空间分布高度吻合。
3. 细胞类型构成的准确推断:在部分主流的空间转录组学技术中,一个测量点(spot)的信号往往来源于多个甚至数十个不同细胞的混合,这极大地限制了我们对组织微环境中细胞分布和组成的理解。准确地“解构”这种混合信号,推断出每个点内各种细胞的精确比例,能够使得研究者以近乎单细胞的分辨率来研究空间微环境的细胞分布情况。
图6 stSCI细胞类型反卷积性能评估。
针对部分空间转录组学分辨率低的痛点,stSCI能够准确推断出每个空间测量点内混合的细胞类型及其比例。在模拟数据和真实的人类癌症数据集中,stSCI的预测结果均表现出较高的准确性,并成功地将特定的空间区域(如肿瘤区域和免疫细胞浸润区)与对应的细胞功能(癌细胞和T细胞)联系起来。
4. 单细胞的空间位置重构:单细胞测序技术为我们提供了前所未有的细胞异质性图谱,但这些细胞在被测序时便脱离了其原始的组织环境,丢失了宝贵的空间坐标信息。stSCI能够为这些单细胞数据重新进行空间定位。它通过在统一的、经过校正的嵌入空间中,计算每个单细胞与空间组学数据中所有点位之间的相似性,从而为每一个单细胞预测其在原始组织中最有可能的位点。
图7 stSCI单细胞空间位置重构性能评估
通过这种方式,stSCI成功构建了包含空间坐标的单细胞分辨率组织图谱。这使得研究者不仅能看到组织中有哪些细胞类型,还能精确地看到它们在哪里、它们的邻居是谁,从而能够深入研究特定细胞亚群的空间聚集模式、细胞间的通讯网络,以及关键基因表达在组织中的梯度变化等一系列重要的生物学问题。
5. 异构数据的整合:在生物学研究中,单细胞和空间转录组数据往往来源于不同的实验批次、不同的技术平台,甚至是不同的组织样本,这些非生物学因素会引入系统性的技术噪声,即“批次效应”。这种效应会严重干扰数据分析,掩盖部分真实的生物学信号,导致细胞因技术来源而不是生物学特性而错误地聚集在一起。因此,高效地消除批次效应,实现异构数据的无缝整合,是所有下游分析得以准确进行的重要前提。
图8 stSCI异构数据整合与批次校正性能基准测试
stSCI能够精准识别并移除技术噪声,同时保留细胞间真实的生物学差异。经过stSCI处理后,异构的单细胞和空间转录组数据能够有效融合,同时,具有相同生物学特征的细胞在嵌入空间中距离更近。这为后续的分析(如功能域识别、反卷积等)提供了一个可靠、统一的数据基础。
为了进一步验证stSCI在真实生物学问题中的应用价值,我们将其应用于沙门氏菌感染的小鼠结肠模型。stSCI不仅成功识别出关键的免疫哨所——淋巴组织区域,还精准捕捉到了该区域在感染过程中表现出的“延迟激活”动态响应模式,这一发现与已知的感染免疫动力学一致,证明了stSCI在探索复杂疾病机制中的强大潜力。
图9 stSCI解析沙门氏菌感染模型中淋巴区域的动态响应
总结与展望
本研究提出的stSCI框架,通过其创新的多任务统一学习和共享编码器设计,实现了能够同时在空间域识别、细胞类型反卷积、空间坐标重建和批次校正等多个任务上均表现卓越的计算方法。未来,结合新的深度学习技术和更高通量的空间数据,stSCI有望实现跨物种、多时间点的深度分析,助力精准诊断与个性化治疗。同时,优化算法以应对大规模数据的挑战,将进一步推动空间组学从实验室走向临床应用。
责任编辑
章 坤 天津医科大学
贺亮亮 中国科学院西双版纳植物园