中山医院谭黎杰/Roland Eils团队评测DeepSeek等6款大语言模型在肺癌筛查中临床决策潜力

CellPress细胞科学

2025-12-18 17:06发布于北京CellPress细胞科学官方账号

问AI · 肺癌筛查报告激增，AI如何缓解医生诊断压力？

医学

Medicine

2025年12月16日，复旦大学附属中山医院谭黎杰/Roland Eils教授团队在Cell Press细胞出版社旗下期刊Cell Reports Medicine发表了一篇论文，题为“Multi-center benchmarking of large language models for clinical decision support in lung cancer screening”。该研究基于多中心真实世界低剂量螺旋CT（LDCT）报告，对包括国产开源模型DeepSeek-R1在内的多种大语言模型（LLMs）在肺癌筛查临床决策支持中的表现进行了系统性基准评测，为人工智能辅助肺癌早期筛查提供了重要科学依据。

随着公众健康意识的提升和低剂量螺旋CT（LDCT）筛查的普及，肺结节的检出率大幅增加。然而，海量的筛查报告给临床工作带来了巨大挑战。尤其在基层医疗机构，受限于医生的专业诊疗水平和相对有限的医疗资源，临床医生的诊断与决策压力更为突出。面对繁多复杂的病例，如何准确判断结节风险并给出符合指南的、规范化的管理建议（如随访间隔、进一步检查或手术），成为了亟待解决的临床难题。

近年来，大语言模型（LLMs）的兴起，以及在医学领域的广泛应用为破解这一困局提供了新思路。然而，现有的研究多基于教科书和数据库中的标准病例或单一中心数据，缺乏基于真实世界、多中心临床场景的严谨验证。针对这一现状，复旦大学附属中山医院谭黎杰教授团队联合Roland Eils教授团队，开展了一项联合多家不同层级医院（包括复旦大学附属中山医院、复旦大学附属中山医院厦门分院和六安市人民医院）的横断面多中心研究。研究纳入了148份真实世界的LDCT筛查报告，系统评估专有模型GPT-4、GPT-3.5、Claude 3 Opus、Claude 3 Sonnet以及GPT-4o和国产开源模型DeepSeek-R1在生成肺癌筛查管理建议方面的表现。

研究结果显示，不同模型在临床应用中各具所长：GPT-4在临床决策的准确性上表现最佳（中位评分4.5/5），展现了严谨的逻辑与决策能力；而Claude 3 Opus 则在回复的可读性上拔得头筹，其语言风格更易于被非专科医生理解。值得注意的是，模型在顶级三甲医院和基层医院的报告处理中表现基本一致，未发现显著的性能差异，证明了其在不同医疗环境下的稳定性与普适性。此外，探索性分析进一步证实，国产开源模型DeepSeek-R1、专有模型GPT-4o和GPT-4的总体表现相近，均显著优于GPT-3.5；但DeepSeek-R1和GPT-4在生成“满分回答”的比例上呈现出高于GPT-4和GPT-3.5的趋势。这意味着在数据隐私敏感和成本受限的医疗场景中，高性能开源模型将具有巨大的应用前景。

作者专访

Cell Press细胞出版社特别邀请论文作者团队进行了专访，为大家进一步详细解读。

CellPress：

肺癌筛查是公共卫生的重要课题，作为临床专家，您为何选择这一具体场景切入？这项研究最初想解决什么临床痛点？

谭黎杰教授：

肺癌目前仍是全球致死率最高的癌症之一，而LDCT筛查是降低死亡率的关键。但在临床一线，我们面临着显著的“供需矛盾”：筛查普及带来了海量的肺结节报告，而无论是顶级医院的专家，还是基层医院的全科医生，都面临巨大的工作负荷特别是对于基层医生而言，准确判断结节风险并给出符合NCCN等权威指南的管理建议（如随访间隔、干预时机），具有较高的专业门槛。我们做这项研究的初衷，就是想验证LLM能否成为医生的“智能助手”，帮助消除不同地区、不同层级医院之间的认知差，让基层百姓也能获得同质化的诊疗建议。

CellPress：

研究发现GPT-4准确性最高，而Claude 3 Opus可读性最好。从AI技术的角度，您如何解读这种差异？这对未来的模型开发有何启示？

Roland Eils教授：

这是一个非常典型的“技术权衡（Trade-off）”现象。我们的测试表明，GPT-4在逻辑推理和对复杂指南规则的遵循上表现出了令人惊讶的严谨性，更像一个“决策引擎”；而Claude 3 Opus在自然语言生成和语体风格上更具亲和力，更像一个“对话接口”。这对未来医疗AI开发的启示在于：单一模型可能无法通吃所有场景。未来的临床决策支持系统（CDSS）可能需要采用“专家混合（Mixture of Experts）”或多模型协作的架构——后端由逻辑能力强的模型负责硬核的推理决策，前端由语言能力强的模型负责生成通俗易懂的患教解释，从而实现准确性与用户体验的最佳平衡。

CellPress：

本研究的一大亮点是评估了国产开源模型DeepSeek-R1，它的表现如何？这对医疗机构意味着什么？

谭黎杰教授：

DeepSeek-R1的表现令我们非常惊喜。在探索性分析中，我们发现它在准确性上与国际顶尖的专有模型（如GPT-4o）表现相当。这一点对临床落地意义重大。医疗数据对隐私安全有着极高的红线，许多医院无法将患者数据上传至公有云。高性能开源模型的出现，使得我们有能力在医院内部防火墙后进行私有化部署。这意味着，我们可以在确保数据不出院、合规安全的前提下，以更低的成本利用最前沿的AI技术辅助临床诊疗，这为AI在我国医疗体系的大规模推广扫清了一个关键障碍。

CellPress：

随着多模态技术的发展，最新的模型已开始具备图像识别能力。但本研究主要聚焦于文本报告，能否分享一下团队当时的取舍与思考？您对未来AI辅助临床决策有何展望？

Roland Eils教授：

坦率地说，这确实是本研究的一个局限性，但也是基于当时技术环境的现实考量。在我们开展这项研究之初，主流的大语言模型尚未普遍具备成熟的医学图像识别能力。因此，我们选择了临床中较为常见和通用的文本报告作为切入点，这能确保研究结果在当时的普适性与可落地性。但现在，情况正在发生变化。随着多模态技术的飞速发展，让AI直接阅读CT影像已成为可能。我们对未来的展望是构建“视觉+语言”双重驱动的临床决策系统。目前，我们团队也正在积极跟进，已开展纳入影像数据的多模态研究，旨在让AI不仅能“读懂”报告，更能“看懂”病灶，从而提供更精准、更全面的诊疗建议。

作者介绍

谭黎杰

教授

谭黎杰，主任医师，博士生导师。复旦大学附属中山医院胸外科主任、食管癌中心主任。美国外科学会院士（FACS），中华医学会胸心血管外科分会食管疾病学组副组长、胸腔镜学组委员，中国抗癌协会食管癌专业委员会副主任委员，中国医师协会胸外科分会委员，中国医师协会内镜医师分会理事。作为负责人主持国家自然科学基金面上项目、上海市自然科学资金面上项目等，作为子课题负责人参与国家科技部“863”项目，十二五国家重点课题等。近年来以通讯作者（含共同）在Nature Medicine、Annals of Oncology、Molecular Cancer、Cell Reports Medicine、Science Translational Medicine等领域内高水平期刊发表多篇论文。获上海市科技进步二等奖（第一完成人）、上海市医学科技奖三等奖（第一完成人）等。

Roland Eils

教授

Roland Eils，德国柏林健康研究所（BIH）数字健康中心创始主任，德国柏林夏里特医学院（Charit–Universitätsmedizin Berlin）讲席教授，以及海德堡大学医学院名誉教授。2025年4月，他被任命为上海复旦大学智能医学研究院执行院长，并加入复旦大学附属中山医院。此外，他还担任柏林自由大学兼职教授，并曾任哈佛医学院客座教授。在此之前，他是海德堡大学系统生物学中心（BioQuant）的创始主任及执行主任，以及海德堡德国癌症研究中心（DKFZ）“理论生物信息学”部门负责人。Eils教授被公认为数字健康领域的先驱。他在癌症基因组学、系统生物学和数字健康领域做出了开创性的贡献。自2017年起，Roland Eils一直担任“人类细胞图谱（Human Cell Atlas）”计划组委会成员；自2016年起，他担任HiGHmed联盟的协调员，该联盟汇集了13家德国大学医学中心，旨在推进常规临床数据的共享。Roland Eils也是德国国家科学院（Leopoldina）当选院士。Roland Eils在将不同学科的新颖理念引入生命科学方面拥有丰富的经验。他是欧洲乃至全球癌症及生命科学领域计算组学的领军人物。他在医学和生命科学领域的顶尖期刊上，以第一和通讯作者（含共同）身份发表了多篇重要论文，发表期刊包括Cell、Nature、Nature Medicine、Nature Biotechnology、Nature Cell Biology、Nature Genetics、Lancet Digital Health、PNAS、Journal of Cell Biology和Molecular Systems Biology。其中许多论文被高频引用，他早期的一些论文更被视为分子细胞生物学和癌症领域的奠基之作。截至目前，Eils教授在同行评审期刊上已发表超过800篇论文（其中过去十年内发表350篇）。这些论文总引用次数超91,000次，H-index高达126（数据来源：Google Scholar，2025年12月）。基于此成就，科睿唯安（Clarivate）于2022年将其列为跨学科领域的“高被引科学家”。