人类健康往往不是由单一因素决定的,而是长期暴露于多种环境、行为与代谢因素的综合结果。随着暴露组学进入“大样本时代”,我们逐渐意识到:传统统计模型难以承载这种复杂性,而现有机器学习方法又往往难以解释。A-BKMR正是在这样的现实需求中诞生——我们希望找到一种既能算得动、又能讲得清的分析方法,让复杂暴露真正服务于公共卫生决策。
导 读
我们生活在一个复杂的环境中,健康受到各种各样相互关联的因素影响。如何从众多来源中找出潜在的健康威胁,并准确衡量它们的影响,既是一个重要的科学问题,也是一个分析方法上的难题。本研究提出一种兼顾计算效率与可解释性的分析方法,旨在让暴露组研究变得更高效、更可行。
图1 图文摘要
研究背景
暴露组学关注人一生中经历的所有外部因素,从生活方式、代谢特征到各种环境暴露,并研究它们对健康的整体影响。随着检测技术与数据积累的快速发展,暴露组数据呈现出“复杂、繁多、共线性强”的特点:影响因素多、来源广,且它们之间常常高度相关,还可能存在非线性的交互作用。这些特点给传统分析方法带来了明显挑战。以单一暴露为核心的传统回归模型往往忽略暴露混合物之间的协同或拮抗效应,难以反映真实暴露情境。而能够同时纳入多个因素的“效应可加模型”虽然有所改进,但它通常依赖较强的假设,在因素高度相关或模型设定不当时,容易出现估计偏差。目前,暴露组学分析主要有两种思路:一类是注重可解释性的统计方法(如LASSO等正则化回归),能够提供参数估计与变量筛选,但依赖明确的回归形式,模型假设一旦与真实机制不符,推断结果可能不稳健;另一类是机器学习方法,具备更强的拟合能力与灵活性,但“黑箱”特性限制了其在健康研究中的解释与应用。贝叶斯核机器回归(BKMR)因能够刻画非线性与交互效应,并提供一定解释性,被视为暴露组学中的有力工具。然而,传统BKMR在大样本下计算代价极高,成为其广泛应用的主要障碍。
研究目的
为兼顾拟合性能、可解释性与大样本可行性,本文提出一种改进版BKMR方法——A-BKMR,核心目标是显著提升计算效率,使其适用于大规模暴露组学研究;同时引入定量统计指标以提高效应估计的精确性与可解释程度,从而为复杂暴露混合物的健康效应评估提供更高效、稳健的分析路径。
研究方法
A-BKMR的整体流程如图2所示,其关键在于“加速计算 + 解释输出”两条主线并行推进。计算加速主要通过加权节点采样与矩阵分解实现,并在Python环境中进行实现与优化,其中矩阵分解是加速的核心环节。如图3所示,传统BKMR在每次迭代中直接构造并操作一个n×n的大型核矩阵,致使计算负担沉重。已有的部分加速方案(如PA-BKMR)借助高斯近似过程减少大矩阵计算复杂度,但仍需显式生成并在后续步骤中使用较大的矩阵,计算速度提升有限。相比之下,A-BKMR在引入高斯近似过程后进一步“去大矩阵化”:避免显式生成n×n核矩阵,而是使用三个维度更小的矩阵来存储必要信息并完成后续计算,从而显著压缩时间成本与内存占用,提升大样本情境下的可运行性。
图2 A-BKMR的工作流程
在可解释性方面,A-BKMR结合g-formula方法,能够输出多层次、可直接用于科学解释的统计量,包括暴露混合物的联合效应、单变量效应以及关键交互效应等,从而在“强拟合”与“可解释”之间取得平衡。
图3 三种BKMR方法的估计过程
为系统评估方法性能,本研究设计了多组模拟实验,在样本量从50至10万的不同设置下,对比A-BKMR、PA-BKMR、BKMRhat(BKMR并行版本)与原始BKMR的运行时间,并检验A-BKMR的变量识别能力与预测表现。此外,在真实数据应用中,基于美国国家健康与营养检查调查(NHANES)数据分析24种多氯联苯(PCBs)与糖尿病患病风险的关系,估计各PCB的重要性(以PIP表示)及其效应大小,并与传统BKMR结果进行一致性验证。
研究结果
模拟结果如图4所示,在多种数据生成机制与相关结构下,A-BKMR计算效率优势稳定显著:即使样本量增加至10万,整体运行时间仍可控制在1小时内;相较之下,其余方法在样本量超过1万后常出现运行时间超过一天的情况,难以满足大规模研究的实际需求。与此同时,A-BKMR在识别关键暴露变量方面表现可靠,能够在不同情境下准确定位重要暴露因素并保持较高稳定性。预测性能方面,A-BKMR同样表现突出:在二分类结局情境下受试者工作特征曲线下面积(AUC)普遍大于0.99,在线性结局情境下R2超过0.97,显示出优良的拟合与泛化能力。
图4 不同的方法在多种样本量下的运行时间
在NHANES实例分析中(图5),A-BKMR识别出的与糖尿病相关的PCBs与传统BKMR的结论一致,说明方法在提升效率的同时未牺牲关键推断结果的可靠性。进一步,A-BKMR估计24种PCBs的联合效应为0.015(95% CI:0.013,0.017),为暴露混合物对糖尿病风险的总体影响提供了清晰、可量化的证据。
图5 A-BKMR估计的PCBs重要性与联合效应
总结与展望
A-BKMR为暴露组学研究提供了一种面向大数据时代的统计新范式,它既可在暴露组学研究中准确识别关键暴露因素,并在不同情境下保持优异的预测性能,同时也可输出丰富且直观的可解释统计量,支持对联合效应、单变量效应与交互作用等多维信息的深入解读。为便于推广应用,我们已将A-BKMR封装为用户友好的R软件包,使用教程与代码示例见GitHub (https://github.com/Guo-yi-y/A-BKMR)。该方法适用于环境混合暴露评估、营养摄入与生活方式分析等多领域,并具备扩展至重复测量数据、中介分析及分布滞后非线性模型(DLNM)等复杂场景的潜力。目前复旦大学公共卫生学院刘聪课题组已基于A-BKMR开展多项研究,欢迎关注课题组GitHub主页 (https://github.com/Guo-yi-y)或微信公众号获取最新进展。
责任编辑
韩金鹏 中国科学院理化技术研究所
张 豪 上海中医药大学