作者:大头
编辑:李宝珠
本文已获得盛斌教授授权发布,转载请联系本公众号,并标明来源
上海交通大学盛斌教授团队联合清华大学、上海体育大学等团队,针对糖尿病培训领域测评了国内外 10 个主流的大语言模型,深入探究了 DeepSeek、ChatGPT 等大语言模型在辅助基层医生培训中的实际效能。
在全球健康版图上,糖尿病正以「海啸级」的凶猛态势侵袭着人类的健康防线。过去 30 年,这场悄无声息却异常残酷的健康之战,已致使 8.4 亿人患病,也就是说,平均每 9 个人当中,就有 1 人不幸被糖尿病确诊。「柳叶刀」发布的最新预警更是拉响了警报:预计到 2050 年,全球糖尿病患者数量将突破 13.1 亿,这意味着平均每 2.3 秒,就有 1 人无奈地加入糖尿病的庞大队伍。
糖尿病这一慢性疾病,犹如一台冷酷无情的「健康收割机」。它不仅以每年 10% 的速度疯狂消耗着宝贵的医疗资源,还每年无情地夺走 400 万人的生命。由其引发的失明、肾衰竭、截肢等严重并发症,让无数患者的生活陷入无尽的黑暗,也让一个个家庭深陷痛苦的深渊。
在这场严峻的健康危机中,基层医疗体系暴露出的「断层之殇」令人痛心不已。以我国为例,每 10 万人口中仅有 0.3 名内分泌专科医生,稀缺程度可见一斑。更为严峻的是,70% 的初级保健医生 (PCP) 缺乏独立完成糖尿病并发症风险评估的能力。而传统的专科培训模式,无疑是雪上加霜,深陷「三重困境」:培训周期往往长达 3-5 年,如此漫长的时间,根本无法跟上医学知识快速迭代的步伐;东西部地区的培训资源差异巨大,落差超过 40 倍,资源分配严重不均;培训课程同质化严重,导致 73% 的基层医生在完成培训后,依旧存在认知上的盲区。
随着科技的飞速发展,DeepSeek、ChatGPT 等大模型强势介入全球医疗领域,为医疗教育带来了新的曙光,正在逐步重构医疗教育的范式。这些大模型凭借强大的知识储备和卓越的推理能力,有望填补基层医生在知识层面的诸多盲区。然而,这场医疗领域的革命并非一帆风顺,正面临着双重严峻挑战。一方面,大模型存在的「幻觉」问题依旧严重,这给医疗安全带来了极大的风险;另一方面,约 30% 的 AI 误诊案例是由于训练数据的错误标注所导致,而且碎片化的临床实践与持续更新的指南库之间存在着巨大鸿沟,严重制约了 AI 价值的充分发挥。
当 AI 给出的诊断建议与医生的临床经验产生冲突时,如何构建「人机协同决策」的全新范式,已成为关乎医疗公平与效率的关键命题。 只有让大模型成为基层医生得力的「智慧外脑」,而非取而代之的「终结者」,未来糖尿病管理的 AI 革命才能真正惠及亿万患者,这也与健康中国战略的需求高度契合。
近期,上海交通大学盛斌教授团队联合上海体育大学毛丽娟教授团队、携手清华大学黄天荫教授团队和上海市糖尿病研究所贾伟平教授团队等多学科力量,与美国杜克大学、约翰霍普金斯大学以及澳洲墨尔本大学等国际顶尖学府和研究机构展开深度合作。他们借助中英双语权威考试体系,共同构建了一套全新的评估方案,对 ChatGPT-3.5、ChatGPT-4.0 以及通义千问等 10 个国内外主流大语言模型 (LLM) 进行了系统测试。
同时,该团队还评测了 DeepSeek 在辅助医生培训方面的效能。 通过这一系列研究,团队提供了全球首个针对大模型在辅助基层医生培训中实际效能的前瞻性真实世界证据,为大模型在医疗领域的应用开辟了新的研究方向,也为提升基层医疗水平提供了极具价值的参考依据。
相关成果以「Large language models for diabetes training: a prospective study」为题,发布于 Science Bulletin。
论文地址:
https://www.sciencedirect.com/science/article/pii/S2095927325000891
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
测试 LLM 对糖尿病知识的掌握程度
团队选取了国内外主流的 10 种 LLM,包括 ChatGPT-3.5、ChatGPT-4.0、谷歌 Bard、LlaMA-7B、LlaMA2-7B、百度 ERNIE Bot、通义千问、医联 MedGPT、华佗 GPT、Chinese LlaMA2-7B。
测试内容涵盖中英文两个部分,分别对应中国国家初级糖尿病护理考试 (NCE-CPDC) 和英国皇家内科医师学会 (MRCP (UK)) 内分泌与糖尿病专业证书考试 (SCE)。研究要求每个 LLM 根据输入的题目作答,并提供相应解析说明。随后,研究团队对比模型生成的答案与官方标准答案,进行交叉核验,以评估其准确率,从而全面衡量各模型在糖尿病领域医学知识方面的表现和应用潜力。
研究设计流程
中文考试——NCE-CPDC:
* NCE-CPDC:中国国家初级糖尿病护理证书考试是为 PCP 设计的专业考试,该考试由中国国家初级糖尿病护理办公室组织。
基于「国家基层糖尿病防治管理指南」,覆盖了糖尿病定义、筛查、诊断、转诊、生活方式干预、药物治疗及急慢性并发症管理等多个方面。NCE-CPDC 的认证在中国得到广泛认可,尤其是医疗保健专业人员和参与糖尿病护理的人员。准确率超过 60% 的结果被视为通过,低于该分数则视为未通过。
在本次测试中,ChatGPT-4.0 以 90.98% 的高准确率表现突出,显著领先于其他模型。阿里通义千问同样展现出较强的竞争力,其准确率达到 81.20%,明显优于 ChatGPT-3.5。其他部分模型虽然未能达到通过标准,但为后续技术改进和优化提供了宝贵的数据和方向。
英文考试——SCE:
* SCE:英国皇家内科医师学会 (MRCP (UK)) 专业证书考试。该考试具有较高的专业性和挑战性,2023 年英国考生的通过率仅为 28.6%。
在 SCE 考试中,题目专为内分泌学家和糖尿病护理专家设计,涵盖糖尿病病理生理学、诊断、药物治疗以及急慢性并发症的管理等高难度内容。ChatGPT-4.0 以 62.50% 的准确率顺利通过及格线,表现远超其他主流 LLM(如谷歌 Bard、LlaMA-7B、LlaMA2-7B 等均未达到合格标准),这一成果不仅证明了 ChatGPT-4.0 在处理高难度专业内容方面的潜力,也为后续将 LLM 应用于医学培训提供了坚实依据。
LLM 辅助基层医生培训
在完成简单的知识问答测试后,研究团队并未浅尝辄止,而是进一步深入探究大语言模型 (LLM) 在实际培训场景中的应用效果。 此次,团队精心挑选了 7 名初级保健医生 (PCP) 作为研究对象,让他们分别在有无 ChatGPT-4.0 辅助的情况下参加中国国家初级糖尿病护理证书考试 (NCE-CPDC)。
测试结果令人眼前一亮:在首次测试中,ChatGPT-4.0 以 84.82% 的准确率领衔其余大模型,将所有参与测试的医生远远甩在身后。而当有 ChatGPT-4.0 辅助时,多数医生的表现更是可圈可点,平均准确率从 74.72% 稳步提升至 75.81%。
尽管在测试过程中,出现了个别医生因难以甄别模型中可能存在的误导性解释,进而导致成绩下滑的情况,但从整体数据来看, LLM 作为辅助工具,无疑能有效助力医生提升对糖尿病护理知识的掌握与应用能力。 值得注意的是,几乎所有参与测试的 PCP 都对这种新型培训模式赞不绝口。他们认为,LLM 在内部一致性、专业意见以及实用性等方面表现堪称优异,为传统培训方式注入了全新活力,带来了令人惊喜的改变。
特别值得一提的是,这项研究工作早在 2023 年便已开展。近年来,国产大语言模型犹如雨后春笋般迅速崛起,在医疗领域取得了长足进步。其中,DeepSeek 作为当下备受瞩目的国产通用大语言模型,表现尤为突出。研究团队对 DeepSeek 回答 NCE-CPDC 试题的准确度进行了严格测试,结果令人振奋——DeepSeek 的回答准确度高达 91.73%,以微弱优势超越了 ChatGPT-4.0 的 90.98%。
基于这一成果,我们有足够的理由相信,未来无论是国产通用大语言模型,还是专注于垂直领域的大语言模型,都拥有巨大的潜力。它们将在糖尿病等慢病防控工作中发挥关键作用,有力推动慢病诊疗向数字化变革大步迈进,为守护大众健康贡献强大的科技力量。
LLMs 在 PCPs 培训及糖尿病患者护理方面的未来前景
LLMs 在医疗保健培训发展情况
从糖尿病护理到精神科培训
LLM 在医学培训中的应用并非局限于糖尿病护理领域。 近年来,国内外多个研究团队尝试将 LLM 与深度学习 (DL) 技术相结合,构建面向不同医学专业的智能培训平台。
以上海交通大学 X-LANCE 实验室吴梦玥老师团队构建的 AMC (Agent Mental Clinic) 为例,该系统通过自动化对话代理模拟心理诊疗场景,不仅能够辅助抑郁症的初步筛查,还能为实习精神科医生进行培训,在正式进入科室实习前提供一些辅导和帮助。这种模式为精神科医生在进入正式临床工作前提供了有益的预演和辅导,极大地缩短了专业培训的时间成本,并为患者提供了更高质量的初诊建议。
AMC 系统运作流程
DeepDR-LLM:融合视觉与语言的糖尿病诊疗新模式
当下,大语言模型 (LLM) 在医学信息处理和知识生成领域成绩斐然,展现出强大的能力。它能快速整合海量医学资料,为医疗决策提供丰富的数据支持,还能根据患者症状和病史生成初步诊断建议,在一定程度上提高了医疗效率。
但即便如此,LLM 仍无法完全替代医生所独有的创新精神、批判性思维以及临床决策能力。 医生在面对复杂病情时,凭借经验和专业知识进行的综合判断,以及对患者个体差异的敏锐洞察,是医疗过程中不可或缺的关键因素。鉴于此,众多研究者积极投身于探索 LLM 与深度学习 (DL) 技术的融合路径,力求进一步提升临床决策的精准度。
在这一前沿领域的探索中,上海交通大学盛斌教授团队的成果格外亮眼。2024 年 7 月,该团队联合国际顶尖机构共同开发的 DeepDR-LLM 模型,登上了国际权威学术期刊「Nature Medicine」。这一成果一经发布,便在国际医学界引发强烈震动,收获了众多医学领域巨擘的高度赞誉。精准医学先驱 Eric Topol 教授、沃尔夫医学奖得主 Daniel J. Drucker 教授,以及世界卫生组织荣誉总干事、清华大学万科公共卫生与健康学院创始院长陈冯富珍教授等,都对其给予了充分肯定。
DeepDR-LLM 系统架构
回顾传统的糖尿病护理培训,医生主要依靠大量书面资料和长期积累的临床经验来提升专业能力。这种方式虽然有效,但存在效率低、受资料时效性限制等问题。
而 DeepDR-LLM 作为全球首个面向糖尿病诊疗的视觉 - 大语言模型集成系统,堪称糖尿病诊疗领域的创新典范。它巧妙融合了 LLM 强大的知识处理能力与 DL 精准的图像分析技术,实现了功能上的重大突破。该系统不仅能迅速、精准地解答糖尿病诊疗相关的各类专业问题,还能借助眼底图像分析,辅助医生诊断糖尿病视网膜病变,帮助医生在疾病早期及时察觉潜在病变风险。
值得一提的是,DeepDR-LLM 系统还具备强大的拓展性,可与 DeepSeek 无缝对接。 可通过采用 MoE 技术融入 DeepSeek 的推理能力,进一步强化自身性能。经过一系列技术迭代和创新,DeepDR-LLM 系统不仅显著提升了糖尿病护理培训的质量,让医生能够更高效地掌握前沿知识和诊断技巧,更为临床实践提供了切实可行的高效技术支持,为糖尿病患者带来了更精准、更及时的诊疗希望。
糖尿病防治是全球健康领域的重要课题,而基层医生培训则是提升整体医疗水平的关键环节。基层医生作为守护大众健康的「前沿卫士」,其培训质量更是提升整体医疗水平的核心环节,直接关乎着医疗服务的广度与深度。
在此背景下,盛斌教授团队通过多学科专家团队紧密合作与融合创新,聚焦于大语言模型 (LLM) 在糖尿病护理培训领域的应用展开深入探索。这一探索意义重大,不仅为借助先进人工智能技术优化医疗培训开拓了全新思路,更如基石般为未来跨学科、多领域的医疗人工智能广泛应用筑牢根基。
如今,「AI + 医生」的组合正展现出巨大的能量,逐渐重塑着医疗资源的分配格局。 这一黄金搭档巧妙融合了两者的优势:医生所具备的人文关怀和丰富临床经验得以保留,给予患者温暖与信任;同时,AI 赋予医生超越个体认知局限的决策支持,让诊断和治疗更加精准高效。当 AI 系统如同不知疲倦的医学助手,能够实时解析最新医学文献、自动生成鉴别诊断图谱,并同步更新全球诊疗共识时,基层医生仿佛被赋予了突破时空限制的「超能力」,即便身处偏远地区,也能获取最前沿的医学知识和诊断思路。
这场医疗变革的影响极为深远,其价值远超提升糖尿病防治水平本身。它更是为全球医疗公平性提供了独具特色的中国方案。想象一下,乡村医生借助 DeepSeek 与 Deep DR-LLM 等 AI 系统,能够获得如同院士级别的诊疗建议,这大大缩小了城乡医疗水平的差距;而城市专家也得以从繁琐的重复性劳动中解脱出来,将更多精力投入到复杂病例的研究中,推动医学不断向前发展。在这样的技术赋能下,「大病不出县」不再只是一句遥不可及的口号,正逐步成为现实,为构建人类卫生健康共同体注入了强劲的智慧动能。
展望未来
在全球医疗环境日新月异的当下,科技赋能已成为提升医疗服务质量的重要「利器」。将前沿技术与医学实践深度融合,不仅能有效填补基层医疗培训长期存在的诸多短板,还能为医疗人工智能的应用开辟更为广阔的发展空间,助力其迈向新的高度。
随着 LLM 技术的持续优化以及临床应用的不断拓展,更多令人期待的创新成果有望落地生根,为广大患者带来实实在在的健康福祉,为全球医疗体系的蓬勃发展注入源源不断的智慧与活力,让医疗事业在科技的推动下绽放更加绚烂的光彩。