AI医生“坐诊”

南方周末

2025-01-02 22:00发布于广东南方周末官方账号

全文4280字，阅读约需13分钟，帮我划重点

划重点

01清华大学智能产业研究院研发的Agent Hospital在2024年11月开始了内测，42位AI医生在虚拟医院中“坐诊”。

02除此之外，该系统旨在打造更强的医生智能体和更逼真的患者智能体，通过医生与患者在虚拟环境交流中互相学习。

03目前，AI已广泛应用于医疗领域，如入院导诊、医生开病历、拍超声和CT等，甚至辅助手术。

04然而，AI医生在诊断过程中的准确性、可解释性和责任归属等问题仍待解决。

05未来，医疗AI有望实现更强大的功能，如AI医生会诊和辅助诊断等。

以上内容由腾讯混元大模型生成，仅供参考

（农健使用AI工具生成/图）

医疗模拟经营游戏《双点医院》（Two Point Hospital）可能成为现实吗？动动手指就能造一个格子间，就诊的患者得了什么病医生一目了然：情绪崩溃者被送进“笑疗室”，“光头症”者进入脱光诊所……里面怪异的机器自己就能治愈患者。

尽管这是天方夜谭，但AI医生给AI患者看病，已成为现实。就在2024年11月，在一家涵盖发病、问诊、检查、治疗等内容的闭环虚拟医院中，来自21个科室的42位AI医生在开始内测“坐诊”。该系统为清华大学智能产业研究院研发的Agent Hospital（下称“清华AI医院”）。

除了看病，这家医院更主要的目的，是打造出更强的医生智能体和更逼真的患者智能体。该研究共同通讯作者、清华大学智能产业研究院助理研究员马为之告诉南方周末记者，医生与患者在虚拟环境交流中，AI患者给AI医生反馈，AI医生从中学习，彼此训练。打造出的高水平AI医生，可以辅助人类医生，成为一个AI助手或分身。

AI已经走入越来越多医院。入院导诊、医生开病历、拍超声和CT、做手术等环节，AI均开始介入。2024年11月，国家卫生健康委等部门发布的《卫生健康行业人工智能应用场景参考指引》中共提到了84个场景，涵盖医疗服务、产业发展和教学科研多个方面。12月，上海等地也发布发展医学人工智能方案。

只不过，AI更像是沉默的后台员工——不会因为喝咖啡而延误病历分析，也不会对病人的焦虑和痛苦投以同情的眼神。

“医生一半的精力能被释放出来”

身体不舒服，挂什么科？怎么挂第二天的号？到医院了，科室在几层？如何支付？这些问题“安诊儿”会立刻给出答案。

“安诊儿”是浙江省卫生健康委发布的数字健康人，2023年底上线，现已迭代为2.0版本。“用AI不仅能提高医疗健康服务的交互性，还能把线上线下的服务进行串联，整个就医流程比传统流程平均节省20分钟左右。”浙江省卫生健康信息中心副主任郭一说。

郭一介绍，为了保证“安诊儿”回答的准确性，采用严肃医疗健康数据喂养，不用不明来源的医学知识，同时也会标注回答仅供参考，具体以医生建议为准。除此之外，应用场景经过严格评估，如智能导诊分诊、健康咨询、健康知识宣教等场景，居民需求大且应用风险低。

“安诊儿”在落地医院还注入了特色数据。比如，浙江省人民医院就在此基础上做了定制版，覆盖门诊五十多个场景。该院门诊部主任袁方发现，使用一年来，通过“安诊儿”预约挂号的患者占比从5%上升到25%，院内问询数量减少了很多。

当患者踏入科室的那刻起，AI已开始承担起预问诊职能。在微医上海人工智能医院，患者讲述的病情通过HIS（医院信息系统）传到医生手上，AI对患者病情分级，提供用药指引，整个过程离不开医生。在浙江省人民医院，医生写病历可在语音输入基础上，通过AI提示关键词和疾病要点对病历内容进行补充。据悉，这项技术在住院病历书写中已经大规模推开，部分门诊科室的病历书写也已投入试用。

对医院而言，病历质量关乎医疗安全、绩效考核等多方面，已有不少医院使用AI进行病历内涵质控，避免病历中出现男性做了妇科手术、左肺病变做了右肺切除这种低级错误。“假使文书工作大模型都能解决，至少医生一半的工作精力是能够被释放出来的。”北京大学人民医院胸外科副主任医师陈修远说。

回答患者询问中，AI也有一些问题，陈修远就发现，ChatGPT等大模型似乎更多“顺着提问者作答”。美国斯坦福大学在2023年发布的一项研究指出，为了提高用户体验和参与度，对话系统往往被设计成倾向于提供建设性和支持性的回应。包括OpenAI的研究也指出，过度顺从可能导致模型在面对不当请求时缺乏足够的判断力。

在特定任务上“几乎可以达到最顶尖医生的水平”

听完患者病情描述，医生开出检查单，下一步患者前往检查室做检查。

X光、磁共振（MRI）、超声……患者在仪器上，什么都不用做，检查就已完成，虽然看不到，其实AI一样参与其中。深圳大学医学部生物医学工程学院副院长倪东介绍，磁共振因为采集信号密集，成像时间长，利用AI介入成像过程，即便只采集稀疏的信号，也能绘出高精度图像，时间可从原来的十分钟缩短到两三分钟；拍CT即便降低放射剂量，利用AI也能生成高精度图像。

看着拍出的片子，患者往往不知所以然。这些医学影像，只用黑白两色就描绘了鲜艳的人体器官，色彩转译成深浅不一的灰色音阶。随着机器学习，尤其是卷积神经网络（CNN）的兴起，医学影像成为AI最早应用到临床的实例，国内外亦涌现出众多医疗影像的算法竞赛。

尽管AI刚入局医学影像的时候，医生并不广泛认可相比前代算法，AI能带来革命性的变化。但很快，在肺结节检出、糖尿病眼底病变筛查、皮肤癌早期诊断等几个特定任务上，AI的准确率出现了突破性改变，“在肺结节检出这个特定任务上，AI几乎可以达到最顶尖医生的水平”。

倪东认为，理论上AI对经验不太丰富的医生更有帮助，但需要可视化引导，降低成本是技术可及的关键。从2019年开始，他们一直在研究NiCE平台，希望在CPU平台、Pad、手机等上面部署非常复杂的人工智能，做到实时分析。这一平台面向贫困地区，可以让医生用更低的成本就能实现AI辅助超声诊断。

作为胸外科大夫，陈修远最主要的判断是结节是否应该手术切除，在遵守诊疗指南的基础上，AI相比人的优势是更量化。医生和病人沟通时，往往会采用一些模糊的说法以表示不确定性，例如“大概率是肿瘤，不除外良性”，但是AI则擅长通过量化指标来表示结果的多样性，例如“肿瘤可能性是89.3%”，这对相当一部分病人而言，更有助于决策。

AI检出率提升也带来困惑。所有结节无论大小，卷积神经网络可以全部检出，但过多的信息可能对医生的决策造成干扰，并对患者的心理造成影响。面对这种困境，现行的方法是以结节的直径作为分水岭，例如：0-3毫米不报、3-5毫米报给医生、5毫米以上报给患者，有效平衡算法的灵敏度与临床的必要性。陈修远认为，生成式AI可能为解决这个问题发挥一定的作用，但究竟会提升医生和算法的沟通效率，还是增加沟通成本，仍需探索。

当AI和医生出现分歧

患者拿到放射科开出的报告，往往会回到专科诊室，等待医生诊断。

把AI用作诊断，准确率是绕不开的话题，人们觉得医疗上出错往往是“不能容忍的”。虽然谷歌开发的大模型Med-Gemini在MedQA（基于美国医师执照考试的数据集）取得91.1%的准确率，但人们还是会经常说一句“大模型会出错，要核查重要信息”。

为了让AI权威，微医上海人工智能医院院长张群华指出，需要经过多个步骤验证，由企业和三甲医院一同合作，经过专家反复使用验证、大数据迭代，再通过多学科多中心验证，这样的产品才具有临床指导意义。“医疗AI一定是集医生经验之精华和数据、算法三位一体的产品。”

陈修远认为，在整个医疗过程中，不同流程之间相互重叠，每个关键决策都有多个步骤反复验证，而AI只是支持其中的一小部分步骤，如果产生错误，很容易发现。“每一个新的步骤都在持续对之前步骤纠错，在临床工作架构不改变的情况下，保持医生在诊疗过程中的主导地位，AI辅助甚至替代个别步骤，并不会因为AI错误产生灾难性后果。”

问题在于，医生要如何发现AI错了？尤其是，AI辅助诊断的优势之一是实现基层医疗同质化，如果经验欠缺的医生看到AI的答案与自己的判断有出入时该怎么办？倪东认为，如果医生水平不高，AI也存在误导的可能。

这是一组矛盾：当AI和医生出现分歧，如果医生忽略，AI就没有价值；医生若完全接受，可能会削弱其权威和责任。毕竟AI没有行医执照，所有诊断书都要医生签字。“责任主体是医生，这一点未来10年、20年都不会变。”张群华说。

现在看，“黑箱”有被打开的希望。OpenAI o1能够模拟人类长链条推理思考，给出决策链条，但生成的时间变慢了。

对于生成式模型的可解释性，马为之提到，常见的有三种不同实现方式：一是结果过程同步完成，例如思维链技术；二是有结果之后再补足过程，根据结果使用额外模型生成解释；三是结果过程同步完成生成后，再进行后校验，保证准确性。“如果模型的准确率足够高，哪怕不能给出完整的推理细节，我是不是也能采用输出的答案？这是一个容忍度问题。”

AI辅助的三维重建是一个例子。人体是三维的，CT是二维的，从二维到三维需要医生在自己大脑中重建影像。2022年开始，陈修远和团队一起开展了为期两年的多中心临床试验，结果说明，AI的辅助可以有效提升手术规划的准确率和时间效率。而且，他还发现了不少自己之前认知错误的地方，“从二维到三维想象是件很难的事”。

从2019年到现在，陈修远所在科室已有1/3的手术病人接受了AI三维重建。“如果没有三维重建，一些比较复杂的手术在开始的初期可能会有很大的阻力，有这项技术后，医生手术的信心增强了。”

AI医生会诊

当遇到复杂病症，医生难以应对之时怎么办？现实中，往往需要科室专家协力，或者多学科联合会诊（MDT）。

AI医生能否会诊？在马为之的设想中，不同专精能力的AI医生能像人类医生一样，再把智力资源汇聚起来，实现AI医生会诊。他们发现，多个智能体在针对同一个病例会诊时，推理过程和得出的结论，比单个智能体更强。但是在医疗应用场景下，决策不仅要保证准确性，还需要交互能力和人情味，需要医生和患者双双接受。

现在AI已在特定模态的特定任务上取得了专业表现，但将各部分能力结合，构建多模态医疗AI尚是难点。马为之认为，由一个统一模型完成不同任务在技术上仍有挑战性，至少在部分任务上效果上没有单个模型好。“我们在技术路线上可以做一些优化，把医生智能体作为决策大脑，再将传统的影像诊断等模型作为工具，用有很强推理能力的大脑调用其他的工具模型获得信息，最后做出决策。”

在此过程中，上述医疗智能体还将被赋予拥有记忆和经验积累的能力，像人类医生一样，在任务的解决过程中学习进步。如果AI病人能满足超拟人、广分布和多样化的条件，那么AI医生诊治的AI患者数量越多，能力就会变得越强。

一位医疗AI研发人员告诉南方周末记者，他期待未来有一个AI for Science（AI驱动的科学研究）或AI for Medical（AI驱动的医学研究）的底座，满足医疗领域极高的专业需求，但问题在于，如果用专业数据，会面临数据小、与真实世界脱节问题；若使用真实世界数据，面临数据真实性和隐私性问题；若将二者结合，也可能会面临很大困难。

清华AI医院中目前有超50万“合成数据”构造的虚拟患者——用大模型、知识库和少量案例生成的虚拟数据。生成过程中，保证患者的表现符合医学规律。基于健康医疗数据使用有种种限制，合成数据被看作是隐私保护的方法之一，但亦存争议，比如如果模型过拟合（在训练数据良好但在测试数据表现不佳）或生成不现实的数据，会限制实用性，还可能会放大真实数据中的偏差。

生成医疗数据似乎存在一个悖论。“如果模型可以生成以假乱真的数据，那说明模型已经足够了解人体，那么生成的数据就已不再重要。”数据隐私也是陈修远关注的课题之一，现在训练模型的数据限制在院内，他们正在分析什么数据可以以何种形式参与院外更大规模的训练，“随着模型的算法复杂程度和训练的硬件需求越来越高，在院内训练甚至在院内部署模型都将难以实现”。

医疗AI究竟如何使用？世界卫生组织在指南《医疗卫生中AI使用的伦理和管治》给出乐观、悲观两种观点，前者认为会减轻医生负担，投身更有挑战性的工作，后者认为会减少工作岗位。张群华曾问许多医生，心目中的AI应该是怎样的，大家的共识是：AI应当是医生的左手，拥抱AI的医生比不拥抱AI的医生，更能让患者受益。

（南方周末记者黄思卓、实习生刘圆圆对本文亦有贡献。）

南方周末记者宋炳晨

责编曹海东

查看原图 258K