糖尿病前期是可逆的关键阶段,通过及时的风险评估和干预,可以显著降低发展为糖尿病的可能性。有效的风险管理不仅有助于患者养成健康生活方式,还能减轻医疗系统的负担。来自香港理工大学护理系杨琳博士的研究团队希望通过开发基于香港人群的机器学习模型精准预测糖尿病发病,帮助糖尿病前期患者更早干预,改善健康结局。
导 读
随着全球糖尿病前期患者人数持续增加,有效的风险管理显得尤为重要。糖尿病前期提供了一个至关重要的预防窗口,在此期间利用精准的风险评估工具,患者能够及时了解自身风险并采取相应的健康干预措施。本文基于香港17年的电子健康记录数据,开发了一个基于机器学习的糖尿病风险预测工具,旨在为糖尿病前期患者提供2年、5年和10年的个性化风险评估,助力早期预防和精准医疗。该研究不仅填补了本地化风险评估工具的空白,还推动了糖尿病防控领域的发展。
图1 模型性能评估与可解释性分析。
(A)深度神经网络(DNN)模型在香港数据集(HADCL)上的内部评估表现,以及在英国生物样本库(UK Biobank)和中国健康与退休纵向研究(CHARLS)数据集上的外部验证表现。(B)Shapley值量化各个特征对预测概率的贡献度。(C)基于人群的风险评分图示例,展示了在HADCL测试集中,查询案例在DNN模型预测概率排序图中的风险定位。
研究背景
糖尿病前期是向2型糖尿病(T2DM)的转变的关键时期,主要表现为包括空腹血糖受损(IFG)或糖耐量异常(IGT)。及时进行风险评估和干预措施可显著降低糖尿病的发生风险。然而,现有的糖尿病风险评估工具多基于西方人群,缺少专为中国人群定制的本地化模型。本文利用香港17年的电子健康记录(EHR)数据,开发了一款机器学习工具,旨在预测糖尿病前期患者在2年、5年和10年内发展为糖尿病的风险。
研究数据与方法
本研究依托香港医院管理局数据协作实验室(HADCL)提供的17年(2003-2019)电子健康记录,覆盖了香港超过95%的糖尿病患者。从中筛选出符合糖尿病前期诊断标准的患者数据分为三个队列研究,分别对应2年、5年和10年的随访期,并排除已确诊的糖尿病患者、1型糖尿病及其他不符合研究条件的患者。
研究提取了患者入组前6个月的平均生化指标数据,包括HbA1c、空腹血糖、血脂水平、肌酐和钾等,以此为基础构建了多种机器学习模型,包括决策树、随机森林、深度神经网络(DNN)等,同时采用逻辑回归模型作为基准对照。通过AUC(Area Under the Curve)、召回率、精准率和准确率等指标对模型性能进行评估,并使用Shapley值解释模型中各个特征的贡献度。
研究结果
研究共筛选出18.9万名、10.1万名和2.2万名患者,分别对应2年、5年和10年的随访组。通过模型对比发现, 深度神经网络模型(DNN)在所有随访组中均表现最为出色,其AUC分别为81.17%(2年组)、78.96%(5年组)和75.60%(10年组)(图1A),召回率分别为81.30%、80.44%和77.76%。同时,DNN模型识别出对糖尿病风险贡献较大的指标包括HbA1c、空腹血糖、肌酐、年龄、性别、钾、甘油三酯、低密度脂蛋白胆固醇等(图1B)。
DNN模型在英国生物样本库(UK Biobank)和中国健康与退休纵向研究(CHARLS)等公开数据集上也显示出良好的泛化能力(图1A)。模型通过概率密度图展示个体的风险分布(图1C),结合测试人群的概率分布,直观地对患者风险进行分级。这种方法不仅能够评估新患者的风险水平,还为临床医生提供了快速参考,便于制定个性化的健康管理策略。可解释性分析结果发现HbA1c、空腹血糖和肌酐等指标在所有模型中均贡献最大,进一步强调了这些生物标志物在糖尿病风险管理中的核心作用。
总结与展望
总结来说,本研究通过对香港长期EHR数据的深入挖掘,开发了一个高效、精确的糖尿病风险预测工具。该工具经过多款机器学习模型的对比测试,验证了其卓越的性能,为糖尿病前期患者的风险管理提供了切实可行的解决方案。未来,该方法有望扩展应用于糖尿病并发症的风险预测,构建一个覆盖从糖尿病前期到并发症的全周期管理工具,从而为糖尿病防控提供一套全面的解决方案。这将显著提升早期干预效果,有效减轻糖尿病对社会和医疗系统造成的负担。
责任编辑
张 瑜 之江实验室
王海帅 浙江大学
本文内容来自The Innovation姊妹刊The Innovation Medicine第3卷第1期以letter发表的“An electronic health record-linked machine learning tool for diabetes risk assessment in adults with prediabetes” (投稿: 2024-09-25;接收: 2024-12-09;在线刊出: 2024-12-17)。
DOI:10.59717/j.xinn-med.2024.100106
引用格式:Lu J., Lu S., Zhao Y., et al. (2025). An electronic health record-linked machine learning tool for diabetes risk assessment in adults with prediabetes. The Innovation Medicine 3:100106.
作者简介
杨 琳,香港理工大学护理学院副教授及基层健康护理研究组负责人,为第一作者陆稷桥的博士导师。现任广东省医院协会感染控制学会副主委,广东省护理协会重症护理学会副主委。曾获欧洲流感研究大会青年科学家奖,香港理工大学医疗及社会科学院杰出研究奖和社会服务奖。已于Nature Cardiovascular Research, JAMA Network Open, Environmental Health Perspectives, Diabetes, Clinical Infectious Diseases 等SCI期刊发表一百三十余篇文章,总引用一万兩千余次。杨博士在教育和科研方面展现了卓越的领导力和学术影响力,致力于推动公共卫生领域的跨学科合作和创新发展。
Web: https://www.polyu.edu.hk/en/sn/people/academic-staff/dr-lin-yang/
往期推荐
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
| ||
|
The Innovation 简介
The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球58个国家;已被151个国家作者引用;每期1/5-1/3通讯作者来自海外。目前有200位编委会成员,来自22个国家;50%编委来自海外(含39位各国院士);领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI,中科院分区表(1区)等收录。2023年影响因子为33.2,2023年CiteScore为38.3。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。
期刊官网:
www.the-innovation.org
www.cell.com/the-innovation
期刊投稿(Submission):
www.editorialmanager.com/the-innovation
marketing@the-innovation.org
Logo|期刊标识
See the unseen & change the unchanged
创新是一扇门,我们探索未知;
创新是一道光,我们脑洞大开;
创新是一本书,我们期待惊喜;
创新是一个“1”,我们一路同行。
The Innovation 姊妹刊
The Innovation
赞助单位