我从未见过 AI 与人类医生之间有如此大的性能差距。
这是 Microsoft AI CEO Mustafa Suleyman 在 2025 年 7 月 5 日访谈中,对“AI 诊断系统”实验的评价。
他不是在做营销,而是复盘一组前所未有的对比数据:
“在美国医生视为“终极考题”的《新英格兰医学杂志》(NEJM)病例中,微软新发布的 Microsoft AI Diagnostic Orchestrator(MAI-DxO)给出了 85% 的正确诊断率,是 21 位美国和英国全科医生平均水平(≈ 20%)的 4 倍以上。”
更令人惊讶的是,AI 用更少的检查(约 80%),反而能更快更准确地找到病因。这意味着——它不仅比人类医生更聪明,而且更节省、更高效。
与此同时,还有个更重要的现象:
每天在 Bing 与 Copilot 上,回答超过 5000 万次健康相关查询——
人们正在把 AI 当作首诊入口。
这标志着 AI 医疗从技术验证走向大规模应用,正式进入“下半场”竞争。
如果说上半场拼的是技术突破与模型对比,下半场拼的就是:
“用户信任度、团队协作模式,和商业竞争实力。”
第一节|微软 Copilot 成“AI 问诊入口”
Mustafa Suleyman 在访谈里提到一个细节,很多人一听可能会以为夸张:
“我们每天在 Bing 与 Copilot 上,回答超过 5000 万次健康相关查询。”
这不是什么虚假宣传,而是真实用户行为的变化信号。
人们不再只是上网查资料,而是开始把 Copilot 当成“问问题的对象”。
这些问题从心理压力、皮肤红疹、家人离世,到癌症、糖尿病管理,应有尽有。
Suleyman 解释说,这并不是微软主动引导的结果,而是用户自然地把 Copilot 当成了“像医生一样可以对话的角色”。
为什么人们愿意“对 AI 说身体的事”?
他的回答是:你可以调整 AI 回答的专业程度,让它更贴近你的知识水平。
如果你是医生,它会说得更专业;如果你是普通人,它就会用更生活化的语言回答。
更重要的是,它不会像搜索引擎一样只列出一堆网页,而是像人一样跟你说话,还愿意继续听下去、回答第二个问题。
这点非常关键。
人们向搜索引擎提问,很多时候只是查一个概念。但向 Copilot 提问,更像是在找一个能对话的、能听懂自己的健康顾问。
Suleyman 说:
“它的回答方式会鼓励用户继续问下去,这种对话式互动,和传统搜索完全不同。”
从一次提问开始,AI正在成为首诊入口
以前身体不舒服,大家会先问问家人朋友,或者上网搜索、刷刷社交平台。
现在,越来越多的用户,直接打开 Copilot:
不用排队 没有心理负担 还可以不断追问,不怕“打扰医生”
这类行为变化的背后,是一个新的习惯正在养成:
AI 不再只是搜索工具,而是变成了问诊入口。
这也是微软在医疗 AI 中最先打通的一个环节——不是给你看病下结论,而是像医生一样先和你聊聊症状。
第二节|两个 AI 如何协作诊断?
如果说 Copilot 是人们提问健康问题的起点,那 “AI 医生” 真正让人震惊的部分,还在后面:它不仅听得懂,还能主动问你病情细节、建议检查项目、分析结果,然后一步步靠近诊断结论。
Mustafa Suleyman 在访谈中这样说:
“我们不是训练了一个模型就去猜诊断结果,而是让两个 AI 分工协作,一起完成整个诊断流程。”
一个像病历助理,一个像医生对话者
一个 AI 专门看病历,另一个 AI 模拟医生问你各种问题,然后告诉你可能是什么病。
换句话说:
第一个 AI 负责“读懂你所有的病史”——包括你过往的检查、症状、影像、病理报告; 第二个 AI 就像医生那样,一步步提问、查证、验证,不断向前推进。
这个过程不是一次输出,而是像对话一样:
第一步,提问基础病史; 第二步,要求查看某个检查; 第三步,判断结果是否支持某个方向; 最后,在多个线索下提出一个最可能的诊断。
Suleyman 说:它不是一下子就给出一个答案,而是反复查看信息,不断提问,并根据新信息修正方向。
测试不是“模拟病人”,而是真实世界最难的病例
为了测试它的真实水平,他们选择了一个超难的挑战:《新英格兰医学杂志》(NEJM)的病例题。
这是一种真实医生常用的训练材料,每周更新,每份案例长达五到七页,涵盖病人的全部就诊记录、检查结果、身体表现,但不直接告诉你答案,要靠你自己推理出来。
每个病例挑战就像终极版填字游戏,医生要靠全部线索自己找出结论,通常要等到下周杂志公布答案。
微软把这些挑战交给这两个 AI 组成的协作结构来处理,结果令人意外:
人类医生答对率:20% 左右 AI 的协作结果:85% 正确率
Suleyman 表示:在我职业生涯中,我从没见过人类医生和 AI 在表现上差这么多。
“两个 AI 合作”到底厉害在哪里?
Mustafa 点出了关键突破点:这个结构并不是靠单个模型,而是靠问对问题、选准步骤、用好已有信息来接近答案。
他强调:
大模型的关键不是输出第一答案,而是能主动‘去别处查一下’。
简单说,它学会了一个老医生的习惯:不确定就问一遍、查一遍、比一遍,直到得出最靠谱的结论。
所以,这不是某个“聪明的机器人”给出答案,而是一个更像临床工作场景的流程设计。
第三节|五代理协作,AI 医生不再是黑盒
很多人对医疗 AI 最大的担忧之一是:
它怎么得出这个结论的?我们能信吗?
微软这次特别强调的一点就是:这不是传统意义上的“黑箱模型”。
Mustafa Suleyman 提到,微软在构建 MAI-DxO 的过程中,不是靠一个大模型给出答案,而是让多个 AI 扮演不同角色,一起做出诊断建议。
不同 AI 辩论协商,最终决策
他们不是在模型里预设答案,而是让五个不同 AI 代理彼此辩论、协商,再汇总结果。
这五个 AI,有的关注成本效率,有的负责综合病史,有的更擅长识别罕见病,有的关注检查项之间的因果关系,还有的负责推敲诊断方案是否完整。
他们不是各说各话,而是像医生组会一样,会先提意见,再互相驳斥,最后统一看法。
微软把这个过程称为 “辩论链(debate chain)”。它们不是为了看谁最聪明,而是为了达成一个互相认可的结论。
Mustafa 强调,这是 AI 医疗的一次关键突破:你不只是看到一个最终诊断,而是看到每一步怎么来的,它提了什么问题,看了哪些检查,为什么这么说。
这就像你不仅能看医生的诊断书,还能看到他在脑子里的自言自语过程。
更关键的是,如果有医生介入,还能随时打断流程、质疑逻辑、补充信息,就像一位经验医生在实习生查房时随时“插话”。
AI 不是“聊天机器人”,而更像一组有分工的专家
Mustafa 认为:
“真正的进展,他们让多个模型各司其职、彼此交谈。”
这句话的潜台词是:AI 医疗不是指望一个全能模型,而是让多个专业AI各司其职,团队作战。
这就像:
"不是找一个万能医生,而是有一个懂放射的、一个懂内科的、一个懂代谢的,大家坐在一起看病例,然后得出一个有共识的建议。"
这就是他们看到准确率显著提升的原因 —— 不是因为哪个模型变强了,而是因为它们开始协作了。
什么叫“结构透明”?
结构透明,说得简单一点,就是:
AI 不是突然给你一个结果,而是告诉你“我是怎么看的” 医生可以复查、干预、提问,也可以修改方向 病人也能知道这个诊断不是靠“模型直觉”,而是一步步来的
Mustafa 给出答案是:
这几乎是黑箱中的可解释机制。
从“听得懂”到“说得明白”,再到“讲得出为什么”——AI 医生的透明化协作机制,正在试图重新定义医疗过程中的信任关系。
而下一个层级,微软进一步想做到的是:
不只是更可信,而是更少步骤、更快结果——诊断路径更短、成本更低。
第四节|又准又省:AI让医疗效率大提升
(图片来源:时代杂志 / TIME)
前面说过,AI 诊断从单干变成了团队作战。但协作的好处,不只是更准确。
Mustafa Suleyman 点出了另一个重要发现:
AI 不只是诊断更准,还能用更少的检查,更快找出病因。
这其实反映了一个更深层的变化:医疗资源配置方式正在被重新定义。
传统方式下,医生可能为了“保险起见”,建议多做几个项目,排除各种可能; 而 AI 会精确选择下一步最值得做的检查,省掉那些“虽然没错,但没必要”的部分。
他们把多余的检查看作是一种错误。
少检查,不只是省钱,更是省焦虑
许多病人其实对检查项目本身并不排斥,而是对其中的不确定性感到焦虑:
检查很多,却没人告诉你为什么做; 做完了也不知道有用没用; 检查时间拖长,整个诊断过程跟着推迟。
AI 不会像人类医生那样“凭经验估计”,而是清晰知道:
某个诊断方向,需要什么信息来支持; 哪些结果最关键; 哪些检查结果,其实可以不用看,也不影响下一步判断。
Suleyman 用一个简单类比来描述:
“模型见过的病例比任何人都多,它自然知道,在一个具体情形下,哪种检查最有用。”
AI 在用“最短路径”接近诊断结果
这一点,很多医生都能体会:
在真实医疗场景里,很多时候不是诊断难,而是如何用最经济的方式确认诊断。
Mustafa 说:这个 AI 诊断系统最强的地方在于,它可以用更少的提问、更少的检查、更少的时间,得到一个更好的诊断。
这不是因为它偷懒少做步骤,而是因为它更懂行——知道哪些检查没必要,哪些最重要。
它专挑最有用的检查来做,就像走迷宫时直接避开死胡同。
精准检查的好处很明显——既提高效率,又节省成本:
它不仅做得更好,也花得更少。
相比人类医生,它能明显减少不必要的资源浪费。
这对整个医疗行业都有重要意义:
医院不用做那么多冗余检查; 医保压力也相对更小; 病人更快获得诊断结果,也不用反复跑医院。
而 AI 的能力提升越快,这种“资源利用效率差”的对比就越明显。
这是全新的医疗效率逻辑
总结一下,到这里我们已经看清楚微软 AI 医生的核心价值之一:
它不仅更聪明,而且更节省——
节省医生时间 节省病人等待 节省不必要的检查 节省整个系统的资源消耗
Suleyman 甚至直言:
“在诊断这件事上,它不仅打败了医生,还重新定义了医生的工作方式。”
但这是否意味着医生就要被取代?并不是。
第五节|医生角色重构:从诊断到陪伴
医疗 AI 越来越准,也越来越省,有人自然会问:
那医生还做什么?会不会有一天就被AI取代?”
Mustafa Suleyman 的观点很明确:不是谁取代谁,而是我们每个人做擅长的事。
他不是在安慰医生,而是在描绘一个医生与 AI 合作的新角色划分。
医生不是被替代,而是换角色
Suleyman 想法是:
“我们认为 AI 能帮助医生接触到他们一生都可能见不到的病例,成为他们学习与提升的工具。”
比如:
AI 诊断出一种极罕见的病,在全世界可能只出现过几千例; 普通医生可能一辈子都不会碰上,但现在可以参与观察这个推理过程; 甚至作为审阅者,指出这个诊断流程是否合理,是否存在误判。
这不是取代,而是让医生以“专家监督者”的身份重新介入。
医生要学会用 AI,而不是跟 AI 对抗
这种关系很透明:AI 会实时展示它问了哪些问题,得到了哪些答案,为什么提出这个可能性。
医生不是被边缘化,而是像在指导一个助手工作:
看到 AI 提了哪些问题; 哪些地方缺乏依据; 哪一步可以打断; 哪一项需要人工复核。
这是一个“AI 先诊断,医生再把关”的模式,更像是双保险,而不是谁跟谁比赛。
不可替代性:理解模糊地带,陪伴情绪时刻
还有一类任务,AI 至今做不到,也未必适合去做:真正复杂的,不是诊断过程,而是诊断之后 —— 患者如何接受,如何抉择,怎么走接下来的治疗路。
Mustafa 明确指出:
面对重大疾病、人生转折,
医生的共情、解释、陪伴,是无法被替代的。
AI 可以给出选项,但无法代替:
和患者家属进行一次心平气和的病情沟通; 理解患者害怕、迟疑、焦虑的真实情绪; 帮助他们在多种治疗路径中,权衡利弊,做出人生选择。
这就是 AI 的价值所在——让医生从繁重的技术工作中解脱出来,把更多精力放在患者身上。
医生角色转变:从做事到管事
这就是医疗人机协作的本质转向:
不是让医生失业,而是把他们从重复流程中释放出来; 不是争夺“谁来决策”,而是设计“怎么协作”; 不是用 AI 来判断谁更强,而是看谁能完成更好的一次诊疗体验。
这也是 Mustafa 所强调的未来模式:AI 会成为你的外脑,但人类仍然负责那个最后一公里。
医生的角色没有消失,只是从台前转到了幕后。
但也正是这个转变,让他们回到了医疗本质:面对人、理解人、陪伴人。
结语| 医疗超级智能,已从想象落地现实
85% 的诊断成功率、20% 的检查节省、5000 万日问诊——这些不是 AI 医疗的未来目标,而是已经出现的现实数据。
Mustafa Suleyman 对此很兴奋:
这感觉就像我们正在接近一个真正的“医疗超级智能”。
但他也提醒,MAI-DxO 仍处在研究阶段,还没有通过任何正式的医疗审批流程。
接下来真正要解决的问题,不是 AI 会不会判断,而是:
医院接不接受这种协作流程? 医生怎么介入、怎么监督、怎么分责? 支付体系、责任归属、数据使用权该怎么重新安排?
AI 医疗的“技术拐点”已至,下半场的比拼,不在模型性能,而在现实协同。
医生、医院、平台、监管,将共同决定这套“超级智能”是否能真正落地。
这不是简单的工具升级,而是医疗行业的深度变革。
📮本文由AI深度研究院出品,内容翻译整理自微软 “AI CEO Mustafa Suleyman最新访谈。未经授权,不得转载
排版:Atlas
编辑:深思
主编:图灵