北大最新研究:开发生成式 AI,构建衰老与疾病的“数字孪生”
深究科学
2026-04-28 09:42
发布于浙江
科普领域创作者
问AI
·
AURORA如何从单一数据生成多模态健康图谱?
全面解析人类个体衰老和复杂疾病的动态轨迹,需要跨维度、多模态生物数据的支撑。然而,目前缺乏整合跨维度数据的算法工具,且同时获取从分子组学到面部图像的多模态数据极其困难。如何将碎片化的数据,统一到一个健康基准表征,为个体(
N=1
)精准绘制健康轨迹并推荐抗衰老和疾病干预方案,一直是重大挑战。
2026年4月21日,
北京大学
韩敬东课题组
在
Cell Metabolism
发表
了文章
A generative AI framework unifies human multiomics to model aging, metabolic health, and intervention response
,开发了一个
面向人类衰老和健康的生成式深度学习框架
AURORA
(AI Unification and Reconstruction of Omics Reassembly Atlas),
利用单一的常规体检数据或面部图像,即可跨模态生成涵盖转录组、代谢组、微生物组等7种模态的全景虚拟图谱
。经部分配对的少量数据训练和在超42万人的真实世界多队列中验证,A
URORA
不仅构建了高精度的
多模态衰老时钟
与疾病预测模型,更实现了个性化药物与生活方式的“数基扰动”,为精准医疗和抗衰老干预提供了革命性的“
数字孪生
”方案。
一、数据集成:从碎片的单模态数据到统一的全模态生成
模型架构:
AURORA将多模态数据拆解为特征本体(Key)与特征数值(Value),使用多头自注意力模块获得特征本体的语义表示,使用模态特异性编码器将模态数据映射为低维流形。
AURORA
解码器使用低维流形作为输入,语义表示作为第一层网络权重,进而生成对应特征的后验分布。
AURORA
的训练过程使用K
L
散度约束,对抗损失,配对样本交叉生成等手段实现多模态数据的低维流形对齐。
AURORA
使用流形空间的特定维度拟合样本年龄,将年龄信息从混杂因素中独立解耦。
跨尺度对齐:
A
URORA
通过生成式建模,将 7 种跨尺度的生物学模态统一到一个共享的低维流形空间(universal
representation)中,包括:分子尺度的血浆转录组,血浆代谢组,通路尺度的口腔菌群代谢通路活性,系统尺度的口腔微生物组,血生化检测指标,以及个体尺度的3D 面部图像,红外面部热图像。
多模态生成:
A
URORA
模型在课题组自建的多中心、多批次、部分配对的队列数据中训练,并拓展应用在跨中心、跨批次、跨人种的外部验证数据中,包括G
TE
x数据集(血浆转录组)和U
K B
iobank(U
KB
)数据集(血浆代谢组,血生化检测指标),实现多模态对齐和全模态生成,得到
407
万个高度仿真,完全配对的多模态数据点。
二、衰老时钟:从片面的单一模态到系统的嵌入时钟
衰老图谱:
基于A
URORA
生成的海量配对数据,研究团队构建了涵盖4
2
万参与者的跨尺度多模态衰老图谱,为每种模态和低维流形嵌入构建了模态特异性和全局系统性衰老时钟,以年龄差(cAgeDiff,即生物学年龄与同龄人群平均值之差)量化个体衰老速率。
性能突出:
A
URORA
衰老时钟集在预测年龄准确度(PCC,M
AD
,R
2
)上显著优于基于真实数据构建的时钟。此外,AURORA具有极强的泛化性,能够校正批次与平台效应。真实转录组数据构建的时钟在 GTEx 外部验证中表现不佳,而基于AURORA生成数据的时钟则在 GTEx 上表现优异。将预训练的AURORA衰老时钟在 UK
B
(仅利用 18 项生理指标生成的多模态数据)中进行外部验证,其预测性能甚至明显优于直接使用真实生理数据训练模型的交叉验证。
机制解析:
贝叶斯网络与结构方程模型分析表明,生理组和代谢组的衰老速率对其他模态衰老速率有潜在因果驱动作用。基因功能富集分析揭示免疫炎症等模态共享的衰老速率相关通路,以及模态特异的衰老速率相关通路:氨基酸代谢(生理组),脂代谢(代谢组),端粒维持(系统衰老)等。
三、疾病预测:从混杂的真实数据到年龄解耦的嵌入
年龄解耦:
在疾病预测方面,研究利用 AURORA 生成的多模态数据和
年龄解耦嵌入
(age
-decoupling
embedding),构建了六种慢性疾病(脂肪肝、肝囊肿、高血压、高脂血症、2 型糖尿病、心血管疾病)的预测模型。结果表明,基于去除年龄混淆因素的年龄解耦嵌入 MLP 分类器表现最佳,优于真实数据构建的模型。
预测扩容:
在 UK
B
中,AURORA 仅凭18 项常规生理指标将可预测(AUC>0.7)非癌疾病数量从 29 种扩展到 96 种,癌症从 3 种扩展到 17 种。对于心衰、TIA、卒中、心梗、肾癌和肝癌等疾病,AUC 提升幅度尤为显著。
未来风险:
预测的疾病概率不仅与诊断标准高度相关,还能指示疾病严重程度分级与未来的新发疾病风险。
将疾病概率与衰老速率联合分析发现,二者之间存在显著相关性,暗示衰老加速与慢性疾病风险共享生物学基础。生存分析显示,加速衰老亚群的未来多种疾病累积发生率显著增加。
四、干预方案:从群体的经验观测到个体的
虚拟扰动
虚拟扰动:
得益于对多模态数据的统一低维流形空间的建模,AURORA不仅是一个“仿真预测”工具,更是一个“干预模拟”平台。在连续的
AURORA
流形空间中对个体数据点施加条件因子(conditional
factor)方向的移动,模拟生活方式或药物条件的改变,生成个体在多模态层面上的响应变化,并通过衰老时钟和疾病预测器定量评估扰动对衰老与疾病的整体影响。
纵向验证:
在生活方式分析中,AURORA精准复现了已知有害习惯(吸烟、含糖饮料、酗酒、过饱饮食、加工肉类、熬夜等)的促衰效应,以及植物性饮食、运动的抗衰效应。在药物扰动分析中,研究利用 UK Biobank 纵向用药记录,对于在基线无用药、回访前开始服药的个体,在其基线状态上施加药物虚拟扰动预测,结果显示疾病概率的预测变化与真实临床变化的中位相关性达到 0.45。
个体响应:
研究筛选出一系列具有潜在“抗衰”效应的药物,包括二甲双胍、阿司匹林、叶黄素、多种维生素(B1、D)和矿物质(钙)等。个体化分析发现,尽管二甲双胍在大多数个体中表现出抗衰老作用,仍有1
5%
个体在虚拟扰动中出现衰老加速,提示药物效应存在显著个体差异。通过对比生成转录组,研究鉴定出 IGFBP3、TRPC3、CDKN2B 和 FUS 等关键基因作为二甲双胍抗衰的生物标志物。这些结果提示,AURORA 可帮助识别不同治疗方案的潜在生物标志物。
五、健康代理:从专业性数据表格到交互性健康报告
为了将 AURORA 的能力转化为可交互工具,研究构建了一个 AURORA Agent 原型。该系统结合了 AURORA 的多模态集成与虚拟扰动的能力和大语言模型(LLM)的推理和对话的能力,能够接受任意单模态输入(如一张面部照片,血生化检测报告单,或生化指标文本),自动调用 AURORA 分析模块,引导用户完成健康管理,生成多模态健康评估报告。
六、讨论与展望
AURORA 的核心价值在于,它
将碎片化的多组学和表型数据统一到一个可模拟、可预测、可控制的“数字孪生”框架
中,实现了跨模态统一与缺失模态高保真生成。这项研究向我们展示了一个极具想象力的未来:在生成式 AI 的赋能下,一张普通的自拍或一次常规抽血,就有望成为洞悉全身多组学状态与长期健康风险的“超级钥匙”。未来,随着更多平衡多模态数据的积累,AURORA可以不断迭代,为构建人群规模“虚拟人图谱”提供基础,推动
从“观测医学”向“
数基医学
”的转变
。