「我的三观崩塌了」,当年的天下第一棋士柯洁,被 Google DeepMind 的 AlphaGo 打败后如是说。当经历了 12 月 20 日在美中爱瑞肿瘤医院的「人机大赛」,MDT(多学科诊疗)团队与多个医疗 AI 模型的多轮较量后,我想我也能充分理解柯洁当时的感受。
8 个副高以上的医生,都在顶级三甲医院磨练多年,组成的 MDT 团队,与豆包、百川、小荷、ChatGPT01、Google Gemini 五个国内外知名 AI 模型,在完全相同的条件下进行了多轮较量,包含问诊、体检、实验室及影像学检查、诊断与鉴别诊断、治疗计划制订、疗效评估及后续治疗等多个环节,轮番交手,层层递进。本来觉得信手拈来的胜利,结果却大大出乎意料。AI 医疗的强劲表现,让医生完全没有了赛前想象白衣胜雪的潇洒。从热身比赛的结果看(如图),之后的比赛恐怕得打起十二万分的精神来应对 AI 的挑战。
目睹所有过程的我,也是医生的我,和参赛的其他医生一样心情失落,感受尤为强烈。六大门派围攻光明顶,我感觉自己才是被打败的魔教。晚餐一桌医生完全没有往日欢快的气氛,尽管谁都不明说,但总感觉一股沉郁的气氛漂浮在房间内。
从比赛结果看,夺冠的 ChatGPTo1 各方面综合能力均衡,远超其他 AI 模型,在各轮比赛均稳定、高效输出,在总结归纳的条理性以及逻辑闭环的严密性等方面表现惊艳,在提供肿瘤诊治的同时关注患者营养、心理支持,并可以通过文字表达人文关怀,充分彰显了人工智能于数据处理和分析的强劲实力。铜牌选手 MDT 战队凭借深厚专业素养、丰富临床经验和多学科协作优势,在面对复杂的肿瘤病例时,在病情的综合分析上尽显专业深度,能够有条不紊地逐层推进,在精准诊断、治疗决策方面明显优于 AI 模型,通过综合考量患者获益与风险,并结合最新的文献与研究数据,为患者的后续治疗提出了创新性的前沿治疗方案,算是勉强维护了人类的尊严。
在行文风格上,AI 更像是唠叨的大伯,事无巨细逐一道来,讲究的是满汉全席全无遗漏;MDT 团队更像干练的小叔,讲究简单明了,直击要害,另外私家菜馆还经常有创新菜品,例如经常在诊疗过程中常常结合最新发表的文献。某种程度上也许人类需要打字,人类的天性忽略了面面俱到的完善陈述。然而满汉全席看上去繁琐絮叨,15-30 秒就上齐了菜品;私家菜馆尽管厨师众多,菜品干练,却需要 AI 的 30-50 倍的时间。尤其是到了热身赛的后程阶段,人类的疲乏已经显而易见,我却看到 AI 三下五除二出了答案,然后抄起双手端在胸前,冷冷地看着人类的余勇可贾。
AI 的这种冷静是优点,也许就是缺点。医疗应该是有温度专业。热身赛之后组织方、评委专家和 MDT 战队以及 AI 战队的参赛人员共同就比赛流程和评审规则展开了深入探讨。关于比赛评分标准的设计遗憾显而易见,评分标准主要倾向于对逻辑推理合理性和内容输出完整性的评价,而对于分期准确和治疗方案的创新价值没有给予应当的权重侧重。此外作为人类,医患之间在相互交流情绪的流转,关心、倾诉,人文关怀不是用简单话术就可以替代,而需要更多心灵感应。更多的时候,好的医患关系是并肩战斗的亲人,这种体会是冷静的 AI 无法做到的。其中一个细节,在某个阶段可能需要穿刺,AI 医生只会面无表情地吐出「去穿刺」的决策,人类医生,我们的 MDT 团队却贴心地考虑到了「如果病人不同意穿刺」之后的种种应对。另一个细节是,人类医生经常在诊疗过程中呈现的直觉和灵感,是 AI 身上不大能看到的。例如比赛中病人后期出现的肠道疑似病变,与肝部转移灶的临近关系,可以去考虑病理取材的优先顺序和检查次数,让病人经历更少的痛苦。但 AI 考虑更多的是准确性和完善性,会导致更多的有创检查和更多更久的时间。毕竟在时间变量面前,效率也是必须要时刻考虑的问题,某种程度上比准确完善性更加重要。
类似情况在 AI 围棋发展到现在也能看到。在 AI 围棋横行天下之际,大概率你不会再看不到秀策与幻庵因硕的「耳赤一手」,也不能再体会吴清源和木谷实十番棋的荡气回肠了。围棋复盘既往的高手国手棋圣棋神,恐怕也要在 AI 老师面前恭听教诲。对于人类来说,少了更多的趣味和快乐。但这种现象 AI 在可穷尽的围棋着法中也许可行,也许可接受,然而因为人体的奥秘和医疗的面向还存在众多的未知领域,目前投喂式的 AI 训练未必可以到达未知世界,我相信人类具备的温暖在临床医疗中还是会长久存在和必要。
整体来说,MDT 团队和在本次比赛中表现突出的 ChatGPT o1 模型相比,还算得上旗鼓相当,能力各有侧重。AI 模型在数据处理时效性、逻辑闭环与归纳总结方面更胜一筹,而 MDT 团队则在临床创新性和专业深度上更具优势。这种差异进一步表明,未来的比赛规则应更合理地调整评分权重,以全面反映双方的特点。不过从发展角度看,AI 战胜人类恐怕是迟早的事情。本次热身赛中 ChatGPT O1 表现已经足够惊艳,然后前两天 OpenAI 又推出 o3 模型系列,在 ARC-AGI(通用人工智能评估基准)上取得了惊人的高达 87.5% 的分数,而人类才 85%,进化速度让人瞠目结舌。我们彷佛可以看到硅基生命踏着碳基生命昂首阔步的前进步伐!
回到现实,我们也不必太过悲观,总究还是需要活在当下。预测一下 AI 医疗今后的走向也许更有意义。当人类多学科的智慧深度与 AI 的高效全面、善于总结的优势相互有机结合时,必将肿瘤临床诊治提升到一个全新的高度,这是毫无疑问的。因此,拥抱 AI 是我们每一个医生都应该有的态度,深度结合是不得不走的路,否则就会被时代的洪流所淘汰。我们需要探讨的是如何结合,在我看来,无非是一个谁领导谁的问题。
DeepMind 初代 alphaGo 的时候,通过大量棋谱学习,人类不停投喂数据和资料并不断训练,已经可以让韩国大棋士李世石一败涂地,但好赖人类利用盲点和 Bug 赢过一局。等到进化到 alphaZero 的时候,AI 已经不需要人类投喂,自我训练对局,创造出 AI 自有的定式走法,「金角银边草肚皮」已经不是不可颠覆的法则,在这个阶段,人类还没意识到 AI 的进化高度,自信满满的柯洁迎战 AI,结果只能在落败后抱头痛哭。而我们知道,围棋的顶尖高手,基本都是人类智商的天花板。但不妨碍柯洁把 AI 当作学习工具,还可以继续提高自己的棋力,而达到没有 AI 之前的高度。
诸如此类,在医疗 AI 上,相对低阶的年轻医生可以更加倚重 AI 去学习和提高,把临床水平向科学规范先进方向前进,为广大患者带来更精准、更优质、更人性化的医疗服务;相对高阶医生,应该利用好 AI 工具,向更多的未知领域出发。2024 年度诺贝尔化学奖获得者 Demis Hassabis 和 John M. Jumper,他们利用 AlphaFold 构建了全新蛋白质结构,为人类在医学领域打开了一扇新的天窗,就是最好的例证。毕竟在医学领域还存在太多的未知。而如果抱残守缺,不思进取,在日益强大的 AI 面前,所有的谬误和错漏会在阳光下无地自容。
本文写毕当天,我又参加了抖音集团小荷健康联合中国信通院、人民卫生出版社举办的「医疗大模型真实场景诊疗能力评测暨面向用户的人工智能+诊疗服务研讨会」,大部分评委的感受与我们类似,AI 作为真实医疗基本达到了大约高年住院医的水平,尤其是在问诊初期部分。人们寄望于 AI 理解世界、感受世界,乃至创造世界,当下只能说 AI 在理解世界的阶段,离感受世界还有相当距离,但目睹 AI 的进化速度,即便是创造世界也会是不久的将来。当下的 AI 还不是一个好医生,但一个好医生必须用好 AI。「沉舟侧畔千帆过,病树前头万木春」,AI 的到来不可避免,医疗也概莫能外,既然如此,伸头一刀,缩头也是一刀,还不如打开大门,拥抱一个新的世界。
作者:北京美中爱瑞肿瘤医院徐仲煌院长