▎药明康德内容团队编辑
实体肿瘤内,除了癌细胞,还存在数量可观的血管内皮细胞、成纤维细胞,以及多种免疫细胞,如肿瘤相关巨噬细胞和肿瘤浸润淋巴细胞等。大量研究表明,不同类型细胞的比例,在多种癌症类型中与患者的病情进展密切相关。因此,精准量化肿瘤微环境中各类细胞的比例,不仅有揭示深入理解肿瘤的发生与发展规律,对优化癌症诊疗策略也具有重要意义。
日前,中国科学院深圳先进技术研究院李雪飞副研究员团队与香港浸会大学田亮副教授团队展开合作,开发了一种基于深度学习(Deep learning)与公开单细胞数据集(Single cell)的解卷积算法(deconvolution method)DeSide。该算法能够较精确地估算19种实体肿瘤中16种细胞类型的丰度。相关研究成果发表于《美国国家科学院院刊》(PNAS)。
据研究人员介绍,在现有的技术中,流式细胞术和单细胞RNA测序(scRNA-seq)等实验方法能够直接测定肿瘤微环境中的细胞比例,但这些方法通常成本较高;而通过计算方法以基于低成本的批量RNA测序(bulk RNA-seq)数据来估算不同类型细胞的比例,则由于不同肿瘤类型中癌细胞的基因表达谱差异很大,要用单一模型精准预测多种肿瘤中各类细胞的丰度仍然是一个很大的挑战。
针对这一难题,该研究首先合成了高质量的训练集。研究人员整合了来源于6种实体肿瘤类型的12个scRNA-seq数据集,为后续合成虚拟肿瘤bulk RNA-seq数据(训练集)提供更为全面的参考数据。该研究采用新的采样方法,使得所合成的虚拟肿瘤bulk RNA-seq数据中包含更多样的细胞比例组合。在合成bulk RNA-seq数据时,通过对基因的过滤(gene-level filtering)来保留与每种细胞类型高度相关的基因,以降低输入数据的维度;再对表达谱进行过滤(GEP-level filtering)以保留与真实肿瘤表达谱相似度较高的样本。这些创新点共同有效提升了所合成的虚拟肿瘤bulk RNA-seq数据的质量。
在深度神经网络结构中,DeSide创新性地采用了两个全连接网络:pathway网络和GEP网络,分别从生物信号通路(pathway)和基因表达谱(gene expression profile, GEP)中提取特征信息。其中,pathway网络通过引入粗颗粒度的特征,有效提升了输入数据的多样性。
此外,考虑到肿瘤细胞的基因表达谱在不同癌症类型之间差异较大,DeSide没有采用回归模型中常用的softmax函数,而是采用了sigmoid函数作为DNN输出层的激活函数,使输出总和处于[0,1]区间。这一设计先预测免疫细胞等非癌细胞类型的比例,再通过1减去所有非癌细胞的比例来估算肿瘤细胞的比例,从而有效减少了直接预测肿瘤细胞比例所带来的误差。研究作者指出,在利用深度神经网络预测细胞比例的研究方向上,DeSide是首个引入该策略的算法。
▲(a)DeSide的深度神经网络(DNN)模型结构;(b)合成虚拟肿瘤的bulk RNA-seq基因表达谱(GEP)的流程。(图片来源:参考资料[1])
该研究系统对比了DeSide与现有算法在预测肿瘤微环境内细胞比例的准确性。结果表明,DeSide能较好地预测多种肿瘤类型内不同细胞类型的比例。同时,即便是与依赖参考数据的算法相比较,DeSide在特定肿瘤类型上的表现依然出色。更值得一提的是,DeSide能较准确地预测训练集中未包含的癌症类型,显示了较好的泛化能力。
▲对比DeSide与其它算法预测bulk RNA-seq数据中肿瘤细胞比例的能力。CCC为预测的肿瘤细胞比例与基于基因拷贝数所估算的肿瘤纯度之间的一致相关性系数(concordance correlation coefficient, CCC)。数据来源于癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库(图片来源:参考资料[1])
该研究进一步通过患者生存分析(survival analysis)探索了DeSide在临床应用中的潜在价值。研究结果表明,基于DeSide预测的细胞比例能够有效地按照病情进展情况对患者进行评估分型,即某些细胞类型或其组合的丰度与患者的生存显著相关。未来,DeSide有望进一步帮助探究不同细胞之间关键的相互作用,从而为寻找潜在的临床治疗靶点提供新的可能。
▲基于DeSide预测公开数据集内不同肿瘤的不同细胞类型的比例,从而对患者进行分型与生存分析(图片来源:参考资料[1])
综上,新开发的DeSide算法基于公开的单细胞数据集与深度学习方法,能够较为准确、高效地估算19种实体肿瘤bulk RNA-seq测序样本中16种细胞类型的比例,为深入理解肿瘤发生与发展机制、评估患者预后和制定精准治疗策略提供了有力的方法与数据支持。
中国科学院深圳先进技术研究院合成生物学研究所合成生物进化研究中心的李雪飞副研究员、香港浸会大学物理系的田亮副教授是本文的共同通讯作者。香港浸会大学的四年级博士生熊昕与中国科学院深圳先进技术研究院研究助理刘烨蓉是本文的共同第一作者。熊昕于2020-2021年在李雪飞课题组担任研究助理期间开启了该课题的研究,随后,经由李雪飞推荐赴田亮课题组攻读博士学位。两个课题组通过紧密合作,联合完成了该项研究。该工作得到了国家重点研发计划、中国科学院战略性先导科技专项、国家自然科学基金青年与面上项目、广东省基础与应用基础研究基金面上项目、香港研究资助局、香港中医药发展基金等多个项目的支持。
本文来自药明康德内容微信团队,欢迎转发到朋友圈,谢绝转载到其他平台。如有开设白名单需求,请在“学术经纬”公众号主页回复“转载”获取转载须知。其他合作需求,请联系wuxi_media@wuxiapptec.com。
免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。