划重点
01清华大学与国家蛋白质科学中心联合提出了一种发现稳定标志物的Stable Cox模型,已在多种癌症的组学以及临床预后数据上证明。
02Stable Cox模型可以发现在多个测试中心数据上稳定的预后标志物,该标志物可以用于对病人进行亚型分层以及生存曲线预测。
03该研究提出的稳定生存分析方法旨在通过变量独立使得发现稳定预后标志物成为可能。
04实验结果显示,Stable Cox模型在三类癌症组学数据集(肝癌、乳腺癌、黑色素瘤)和两类癌症临床生存数据(肺癌、乳腺癌)上具有强大的泛化能力。
05由于此方法具有高泛化能力,有望在异质性数据中精确识别并具有高泛化能力的生物标志物的新技术。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】清华大学与国家蛋白质科学中心的最新成果,结合了稳定学习的理论,提出了一个面向多中心、大队列异质数据的「稳定」生存分析方法。
预后标志物是一种能够提供有关疾病未来发展、结果或者患者生存情况等信息的生物标志物。可以是生物分子(如蛋白质、核酸等)、细胞特征(如特定细胞类型的存在或数量变化)或者影像学特征等多种形式。通过检测和分析这些标志物,可以帮助医生预测疾病的进程、患者对治疗的反应、复发的可能性以及总体生存时间等重要预后信息。
该工作是崔鹏团队所提出的stable learning (稳定学习) 的理论和方法在生存分析领域的最新力作。
受因果推理方法启发,稳定学习方法专注于学习协变量和输出之间的稳定因果关系,而非易变的相关性 [3]。
受益于因果分析方法提供的理论保证,稳定学习方法在分布偏移场景下通常具有很强的泛化性、可解释性和公平性 [4]。
然而,稳定学习方法还无法用于复杂的「time-to-event」数据,该论文从方法到理论介绍如何将稳定学习用于提高生存分析模型的泛化性。
生存分析中多中心异质数据的泛化难题
Cox风险比例模型(Cox Proportional Hazards Model)[5],又称Cox回归模型,由英国统计学家David Cox于1972年提出。
该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的数据,且不要求估计数据的生存分布类型。
因上述优点,Cox回归模型迅速成为生存分析中最常用和最重要的工具之一,广泛应用于医学、公共卫生、流行病学、临床试验等多个领域。
以Cox模型为主流的大多数现有生存分析方法假设训练和测试数据具有相似的分布,而在现实中,由于不同中心或人群队列的异质性、不同仪器甚至不同分析方法等因素,这一假设常常并不成立,对现有生存分析方法的泛化性和可靠性提出了严峻的挑战,尤其是在个性化医疗和药物研发等高风险应用中,模型的可靠性超越了简单的统计考量,成为生死攸关的重要问题。
生存分析的分布外泛化场景
应对多中心异质数据分布偏移的主要挑战是「如何找到稳定的生物标志物」,由于生存分析数据是复杂的「time-to-event」数据并且其本质是相关性驱动的学习机制,因此导致现有方法会盲目的学习到训练集中存在的虚假相关性(比如,病人某个基因的表达和他所在地点高度相关,然后该地点的医疗水平又会影响该病人的预后)。
然而,这种虚假相关性是不稳定的,是容易在测试中心数据上发生改变的,导致我们训练好的生存模型在用到新的测试中心时有显著的风险。如何找到生存分析的稳定变量是困扰学界多年来的问题,也是将该类方法用到生命科学等关键领域的重要瓶颈。
Stable Cox:稳定生存分析方法
具体而言,该模型由两阶段组成:「独立性驱动的样本加权」和「加权Cox回归」。
Stable Cox模型框架
在独立性驱动的样本加权阶段,学习一套样本权重对样本进行重加权使得协变量之间相互独立;在加权的Cox回归阶段,Cox模型损失中的样本被我们之前学到的样本权重进行重加权。这个加权后的样本损失可以有效地分离每个变量对于生存输出的效应。
从理论上,可以证明即使在有模型错估的情况下,Stable Cox模型可以识别稳定变量进行预测,也就是模型在不稳定变量上的系数为0。
研究团队在三类癌症组学数据集(肝癌、乳腺癌、黑色素瘤)和两类癌症临床生存数据(肺癌、乳腺癌)上进行了广泛实验,采用多个独立测试群体和子群体,展示了此方法的强大泛化能力(平均提升6.5%-13.9%)。
此外,Stable Cox学习得出的权重系数可用于发现潜在的组合标志物,并区分生存风险显著不同的亚型,这对于指导治疗决策和靶向药物研发具有重要意义。
在肝癌、乳腺癌、⿊⾊素瘤上Stable Cox与其他方法在多个独立测试集上的C-index比较
Stable Cox的预后亚型人群分组结果,以及标志物在不同中心预后一致性统计
结论
从队列的回顾性研究中发现稳定的标志物用于前瞻性研究是机器学习方法用于实际医疗场景中的关键和难题。