中山医院谭黎杰/Roland Eils团队评测DeepSeek等6款大语言模型在肺癌筛查中临床决策潜力

问AI · 肺癌筛查报告激增,AI如何缓解医生诊断压力?
图片


医学

Medicine

图片

2025年12月16日,复旦大学附属中山医院谭黎杰/Roland Eils教授团队在Cell Press细胞出版社旗下期刊Cell Reports Medicine发表了一篇论文,题为“Multi-center benchmarking of large language models for clinical decision support in lung cancer screening”。该研究基于多中心真实世界低剂量螺旋CT(LDCT)报告,对包括国产开源模型DeepSeek-R1在内的多种大语言模型(LLMs)在肺癌筛查临床决策支持中的表现进行了系统性基准评测,为人工智能辅助肺癌早期筛查提供了重要科学依据。

图片

随着公众健康意识的提升和低剂量螺旋CT(LDCT)筛查的普及,肺结节的检出率大幅增加。然而,海量的筛查报告给临床工作带来了巨大挑战。尤其在基层医疗机构,受限于医生的专业诊疗水平和相对有限的医疗资源,临床医生的诊断与决策压力更为突出。面对繁多复杂的病例,如何准确判断结节风险并给出符合指南的、规范化的管理建议(如随访间隔、进一步检查或手术),成为了亟待解决的临床难题。


近年来,大语言模型(LLMs)的兴起,以及在医学领域的广泛应用为破解这一困局提供了新思路。然而,现有的研究多基于教科书和数据库中的标准病例或单一中心数据,缺乏基于真实世界、多中心临床场景的严谨验证。针对这一现状,复旦大学附属中山医院谭黎杰教授团队联合Roland Eils教授团队,开展了一项联合多家不同层级医院(包括复旦大学附属中山医院、复旦大学附属中山医院厦门分院和六安市人民医院)的横断面多中心研究。研究纳入了148份真实世界的LDCT筛查报告,系统评估专有模型GPT-4、GPT-3.5、Claude 3 Opus、Claude 3 Sonnet以及GPT-4o和国产开源模型DeepSeek-R1在生成肺癌筛查管理建议方面的表现。


研究结果显示,不同模型在临床应用中各具所长:GPT-4在临床决策的准确性上表现最佳(中位评分4.5/5),展现了严谨的逻辑与决策能力;而Claude 3 Opus 则在回复的可读性上拔得头筹,其语言风格更易于被非专科医生理解。值得注意的是,模型在顶级三甲医院和基层医院的报告处理中表现基本一致,未发现显著的性能差异,证明了其在不同医疗环境下的稳定性与普适性。此外,探索性分析进一步证实,国产开源模型DeepSeek-R1、专有模型GPT-4o和GPT-4的总体表现相近,均显著优于GPT-3.5;但DeepSeek-R1和GPT-4在生成“满分回答”的比例上呈现出高于GPT-4和GPT-3.5的趋势。这意味着在数据隐私敏感和成本受限的医疗场景中,高性能开源模型将具有巨大的应用前景。


图片

作者专访

Cell Press细胞出版社特别邀请论文作者团队进行了专访,为大家进一步详细解读。

CellPress:

肺癌筛查是公共卫生的重要课题,作为临床专家,您为何选择这一具体场景切入?这项研究最初想解决什么临床痛点?



谭黎杰教授:

肺癌目前仍是全球致死率最高的癌症之一,而LDCT筛查是降低死亡率的关键。但在临床一线,我们面临着显著的“供需矛盾”:筛查普及带来了海量的肺结节报告,而无论是顶级医院的专家,还是基层医院的全科医生,都面临巨大的工作负荷特别是对于基层医生而言,准确判断结节风险并给出符合NCCN等权威指南的管理建议(如随访间隔、干预时机),具有较高的专业门槛。我们做这项研究的初衷,就是想验证LLM能否成为医生的“智能助手”,帮助消除不同地区、不同层级医院之间的认知差,让基层百姓也能获得同质化的诊疗建议。

CellPress:

研究发现GPT-4准确性最高,而Claude 3 Opus可读性最好。从AI技术的角度,您如何解读这种差异?这对未来的模型开发有何启示?



Roland Eils教授:

这是一个非常典型的“技术权衡(Trade-off)”现象。我们的测试表明,GPT-4在逻辑推理和对复杂指南规则的遵循上表现出了令人惊讶的严谨性,更像一个“决策引擎”;而Claude 3 Opus在自然语言生成和语体风格上更具亲和力,更像一个“对话接口”。这对未来医疗AI开发的启示在于:单一模型可能无法通吃所有场景。未来的临床决策支持系统(CDSS)可能需要采用“专家混合(Mixture of Experts)”或多模型协作的架构——后端由逻辑能力强的模型负责硬核的推理决策,前端由语言能力强的模型负责生成通俗易懂的患教解释,从而实现准确性与用户体验的最佳平衡。

CellPress:

本研究的一大亮点是评估了国产开源模型DeepSeek-R1,它的表现如何?这对医疗机构意味着什么?



谭黎杰教授:

DeepSeek-R1的表现令我们非常惊喜。在探索性分析中,我们发现它在准确性上与国际顶尖的专有模型(如GPT-4o)表现相当。这一点对临床落地意义重大。医疗数据对隐私安全有着极高的红线,许多医院无法将患者数据上传至公有云。高性能开源模型的出现,使得我们有能力在医院内部防火墙后进行私有化部署。这意味着,我们可以在确保数据不出院、合规安全的前提下,以更低的成本利用最前沿的AI技术辅助临床诊疗,这为AI在我国医疗体系的大规模推广扫清了一个关键障碍。

CellPress:

随着多模态技术的发展,最新的模型已开始具备图像识别能力。但本研究主要聚焦于文本报告,能否分享一下团队当时的取舍与思考?您对未来AI辅助临床决策有何展望?



Roland Eils教授:

坦率地说,这确实是本研究的一个局限性,但也是基于当时技术环境的现实考量。在我们开展这项研究之初,主流的大语言模型尚未普遍具备成熟的医学图像识别能力。因此,我们选择了临床中较为常见和通用的文本报告作为切入点,这能确保研究结果在当时的普适性与可落地性。但现在,情况正在发生变化。随着多模态技术的飞速发展,让AI直接阅读CT影像已成为可能。我们对未来的展望是构建“视觉+语言”双重驱动的临床决策系统。目前,我们团队也正在积极跟进,已开展纳入影像数据的多模态研究,旨在让AI不仅能“读懂”报告,更能“看懂”病灶,从而提供更精准、更全面的诊疗建议。


作者介绍


图片



谭黎杰

教授

谭黎杰,主任医师,博士生导师。复旦大学附属中山医院胸外科主任、食管癌中心主任。美国外科学会院士(FACS),中华医学会胸心血管外科分会食管疾病学组副组长、胸腔镜学组委员,中国抗癌协会食管癌专业委员会副主任委员,中国医师协会胸外科分会委员,中国医师协会内镜医师分会理事。作为负责人主持国家自然科学基金面上项目、上海市自然科学资金面上项目等,作为子课题负责人参与国家科技部“863”项目,十二五国家重点课题等。近年来以通讯作者(含共同)在Nature Medicine、Annals of Oncology、Molecular Cancer、Cell Reports Medicine、Science Translational Medicine等领域内高水平期刊发表多篇论文。获上海市科技进步二等奖(第一完成人)、上海市医学科技奖三等奖(第一完成人)等。

图片



Roland Eils

教授

Roland Eils,德国柏林健康研究所(BIH)数字健康中心创始主任,德国柏林夏里特医学院(Charit–Universitätsmedizin Berlin)讲席教授,以及海德堡大学医学院名誉教授。2025年4月,他被任命为上海复旦大学智能医学研究院执行院长,并加入复旦大学附属中山医院。此外,他还担任柏林自由大学兼职教授,并曾任哈佛医学院客座教授。在此之前,他是海德堡大学系统生物学中心(BioQuant)的创始主任及执行主任,以及海德堡德国癌症研究中心(DKFZ)“理论生物信息学”部门负责人。Eils教授被公认为数字健康领域的先驱。他在癌症基因组学、系统生物学和数字健康领域做出了开创性的贡献。自2017年起,Roland Eils一直担任“人类细胞图谱(Human Cell Atlas)”计划组委会成员;自2016年起,他担任HiGHmed联盟的协调员,该联盟汇集了13家德国大学医学中心,旨在推进常规临床数据的共享。Roland Eils也是德国国家科学院(Leopoldina)当选院士。Roland Eils在将不同学科的新颖理念引入生命科学方面拥有丰富的经验。他是欧洲乃至全球癌症及生命科学领域计算组学的领军人物。他在医学和生命科学领域的顶尖期刊上,以第一和通讯作者(含共同)身份发表了多篇重要论文,发表期刊包括Cell、Nature、Nature Medicine、Nature Biotechnology、Nature Cell Biology、Nature Genetics、Lancet Digital Health、PNAS、Journal of Cell Biology和Molecular Systems Biology。其中许多论文被高频引用,他早期的一些论文更被视为分子细胞生物学和癌症领域的奠基之作。截至目前,Eils教授在同行评审期刊上已发表超过800篇论文(其中过去十年内发表350篇)。这些论文总引用次数超91,000次,H-index高达126(数据来源:Google Scholar,2025年12月)。基于此成就,科睿唯安(Clarivate)于2022年将其列为跨学科领域的“高被引科学家”。

图片


相关论文信息

相关论文刊载于Cell Press细胞出版社旗下期刊Cell Reports Medicine上,点击“阅读原文”或扫描下方二维码查看论文

论文标题:

Multi-center benchmarking of large language models for clinical decision support in lung cancer screening

论文网址:

https://www.sciencedirect.com/science/article/pii/S2666379125005385

DOI:

https://doi.org/10.1016/j.xcrm.2025.102465

图片

Cell Reports Medicine现已加入Cell Press MJS多刊审稿!Cell Press Multi-Journal Submission(点击查看)的前身Cell Press Community Review模式于2021年推出。对于通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的作者,我们将提供稿件被多本期刊同时考虑的机会。超过80%通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的文章获得了至少一个或多个期刊的评审。


CellPress细胞出版社