Genomics, Proteomics & Bioinformatics (GPB)在线发表了广州国家实验室李亦学研究员和中山大学附属第六医院高峰副研究员团队撰写的题为“Challenges in AI-driven Biomedical Multimodal Data Fusion and Analysis”的综述文章。“要文译荐”栏目很高兴邀请到文章作者刘俊伟副研究员为大家介绍该综述的主要内容。
研究背景
随着生物医学检测方法的快速发展,个人生物医学信息的数量和类型得到了大幅扩展,包括基因组学、转录组学、蛋白质组学、代谢组学数据,以及医学影像和电子病历数据。这些多模态数据集在临床场景中具有巨大的应用潜力,可用于精确的疾病诊断、标志物识别和个性化疗法的开发。人工智能(Artificial Intelligence, AI)技术,尤其是大语言模型和视觉模型的成功,进一步扩展了AI在生物医学领域的应用。然而,如何有效整合这些跨尺度多模态生物医学数据集,以及在数据隐私、模态缺失和模型的可解释性等问题上依然面临诸多挑战。本综述提供了多种生物医学模态数据、多模态表示学习方法,以及AI在生物医学数据整合分析中的应用的全面概述,深入讨论实际临床应用中的挑战,并展望如何进一步推动人工智能技术在生物医学研究和临床应用中的关键发展方向。
研究内容
1. 临床多模态数据集合
多模态生物医学检测数据的快速积累,为生物医学研究提供了关键的数据资源。这些数据包括数值数据、影像数据、文本数据和信号数据等多种类型。数值数据通常通过组学检测产生,常见的难点包括数据稀疏性和噪声。影像数据,如CT、MRI等,是临床诊断的核心工具,但需要额外的图像去噪和分割等操作。文本数据包括临床报告和分子序列数据,常借助自然语言处理技术进行分析。生物医学信号(如ECG、EEG等)是时间序列数据,需要特定的信号处理方法(图1)。为有效整合这些异构多模态数据,基于人工智能的多模态表示学习方法应运而生,以提供更全面的生物医学见解。
图1 生物医学领域的多模态数据类型
2. 多组学数据表示学习方法
多模态表示学习方法旨在有效整合来自不同模态的异构数据,最大化不同模态信息的互补性。早期的浅层学习方法,如联合非负矩阵分解(jNMF)等,广泛应用于多组学数据的整合。随着深度学习的发展,变分自编码器(VAE)和生成对抗网络(GAN)成为重要的生成模型,通过联合表示学习从多个模态中提取潜在特征。图神经网络(GNN)则通过图结构处理复杂的关系数据,能够同时学习模态内部和模态之间的交互信息。此外,Transformer模型通过自注意力机制灵活处理跨模态的数据交互。这些方法在生物医学多模态数据分析中取得了显著进展,为数据整合、特征学习和跨模态理解提供了强大的工具。
3. 临床多模态数据分析
临床多模态数据整合通过深度学习技术将不同类型的临床数据(如影像数据、基因组数据和临床记录)融合,从而提高疾病诊断、预后预测和个性化治疗的精确度。基于数字病理图像的人工智能方法提供了高精度的细胞水平信息,并通过与基因信息的融合用于更准确的患者分类与表型预测。此外同时,放射学影像(CT和MRI)和时序检测信号(如EEG、HER、ECG等)也能够与其他数据进行融合,在免疫治疗疗效预测等任务中,为精准医疗提供支持。
4. 生物多组学数据分析
生物多组学数据分析通过整合来自基因组学、转录组学、蛋白质组学等不同组学的数据,深入理解疾病过程及其生物学机制。在癌症等领域,研究者通过多组学整合揭示了基因、蛋白质和代谢物之间的复杂关系,推动了疾病的早期诊断和治疗方法的创新。此外,基于生物学约束和药物扰动预测模型的应用,进一步帮助理解多组学数据背后的生物学机制,为疾病标志物发现和药物靶点挖掘提供强有力的支持。
5. 单细胞多组学数据整合
高通量单细胞技术使得大规模单细胞数据的生成成为可能,涵盖了转录组学、染色质可及性、DNA甲基化以及单细胞空间分布等方面。单细胞水平的多组学数据整合为理解细胞间的异质性和基因调控差异提供了新的视角。深度学习模型已被广泛应用于配对以及非配对单细胞数据集和空间多组学数据的整合,推动了细胞亚群预测、调控网络和细胞间通讯识别等任务,进一步帮助揭示复杂的细胞行为和疾病机制。
6. 基因型-表型关联分析
在多模态生物医学分析中,基因型与样本表型之间的关联是一个关键挑战。深度学习方法为揭示这些关联提供了重要的研究手段。例如,通过将基因组数据与影像数据结合,可以预测医学影像中的分子变化,提供一种非侵入性的基因组学检测方案。此外,基于单细胞数据集的疾病表型预测方法能够建立不同细胞亚群与疾病表型之间的特异性关联。多模态学习方法也为进一步识别跨尺度的疾病标志物,探索复杂疾病中的基因型-表型关联提供了新的研究思路。
AI驱动的生物医学多模态
数据分析中的挑战
尽管AI驱动的多模态数据分析已经取得了一定的进展,但在临床实践中应用这些方法仍面临一些挑战。
1. 数据挑战
数据隐私问题限制了跨机构数据共享,影响了训练数据集的规模。联邦学习和隐私保护技术,通过模型的本地训练避免了敏感数据的直接访问,已成为有效的解决方案。此外,数据采集方法差异和模态缺失也增加了数据整合和处理的复杂性。针对这些问题,自监督学习和缺失模态学习方法逐渐得到应用,实现从有限的标签数据中提取有效信息并填补缺失数据。
2. 模型可解释性
生物医学数据的可解释性在机制识别、药物设计和治疗选择过程中尤为关键。传统的“黑箱”模型需要进一步理解其决策过程。基于生物学启发的神经网络设计通过引入生物学通路信息来提升模型的可解释性。基于扰动归因、梯度归因等事后分析(post hoc)方法也被广泛应用于特征识别和生物学机制解读。此外,跨模态特征交互的解释也亟待进一步的研究,以便更好地理解如基因突变对蛋白质功能与疾病表型的影响。
3. 跨尺度数据整合
跨尺度数据整合旨在结合来自不同尺度(如临床数据、基因组数据和单细胞数据)的信息,以获得更全面的生物医学见解。生物医学数据常跨越多个生物学层次和空间尺度,因此整合这些数据对于揭示复杂的生物学机制至关重要。为实现跨尺度整合,研究者采用了注意力机制和多实例学习方法,以捕捉不同尺度数据之间的重要交互信息。图卷积网络等深度学习模型也被应用于医学跨尺度数据的处理,以帮助实现不同尺度数据的对齐。
未来方向
1. 元学习与迁移学习
元学习和迁移学习是解决生物医学领域中数据稀缺问题的关键方法,尤其当在有限的临床数据集上进行模型训练。元学习使得模型能够快速适应新的任务,并已在癌症基因依赖性预测和预后预测任务中得到应用。迁移学习则通过在大规模数据集上训练模型,再将其知识迁移到较小的目标数据集,已被应用于单细胞数据和多模态数据的整合。此外,元学习和迁移学习也被用于跨物种的数据迁移,支持更广泛的临床应用。未来,随着模型和方法的进一步优化,这些技术将极大地提升生物医学多模态数据分析的能力,尤其是在小样本学习和临床实践中的应用。
2. 基础模型
基础模型通过大规模的预训练,能够适应多种生物医学任务,如基因组学、临床影像学和临床文本学习。基础模型的优势在于其跨任务的适应性和强大的知识集成能力,能够处理不同类型的多模态数据。尽管基础模型在影像数据和组学数据整合方面已取得初步成果,但如何有效整合海量数据和提升模型可解释性仍然是一个挑战。未来,结合知识图谱、提示调优和推理模型(如DeepSeek-R1)等技术,基础模型有望加速生物医学研究的发展,特别是在个性化医疗、疾病诊断和药物研发领域。
结论
随着生物医学检测技术的不断发展,人工智能在多模态数据分析中的应用已显著提升了疾病诊断、治疗和生物学机制的理解。AI技术克服了传统方法依赖线性相关性近似的局限,解决了潜在机制理解不完全的问题。在面对复杂的多模态数据分布时,AI展现了在参数估计等挑战中的高效处理能力。然而,数据隐私、模态缺失和模型可解释性等问题依然制约着相关技术的广泛应用。展望未来,元学习、迁移学习与基础模型的结合将成为推动多模态生物医学数据分析的重要方向,进一步提升模型的适应性和多任务能力。然而,我们也应认识到,尽管人工智能方法在生命科学与临床医学中已有成功应用,但这些方法本身在生物医学领域的创新仍显不足,尤其是受到生命科学启发的AI算法进展较为缓慢。因此,填补这些空白将成为未来人工智能方法在多模态生物医学数据分析应用研究中的关键方向。
文章编译来源:
Liu J, Cen X, Yi C, Wang F, Ding J, Cheng J, et al. Challenges in AI-driven Biomedical Multimodal Data Fusion and Analysis. Genomics Proteomics Bioinformatics 2025. https://doi.org/10.1093/gpbjnl/qzaf011
英文全文详见:
https://academic.oup.com/gpb/advance-article/doi/10.1093/gpbjnl/qzaf011/8045317?searchresult=1
作者及资助情况:
广州国家实验室刘俊伟副研究员和中国科学院大学生命科学学院岑萧萍博士生为该文共同第一作者,广州国家实验室李亦学研究员与中山大学附属第六医院高峰副研究员为该文的共同通讯作者。本研究得到国家重点研发计划、广州国家实验室自立项目、广东省基础与应用基础研究基金等的资助和支持。
GPB论文:
Challenges in AI-driven Biomedical Multimodal Data Fusion and AnalysisGenomics, Proteomics & Bioinformatics [基因组蛋白质组与生物信息学报(英文),简称GPB] 于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。2024年公布的官方数据显示,CiteScore为14.3;2年和5年Impact Factor分别为11.5和10.3;2023 JCI为2.58,排名WoS遗传学领域6/191。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2028)。