划重点
01OpenAI的o1-preview模型在医疗诊断中表现出色,准确率高达近80%,远超医生。
02哈佛、斯坦福、微软等机构的多名医学、AI专家联手评估了o1-preview,发现其在鉴别诊断、诊断临床推理和管理推理方面已超越人类。
03然而,研究也存在局限性,如o1-preview可能过于啰嗦,人机交互对开发临床决策辅助工具至关重要。
04未来需要确定大语言模型如o1-preview能否增强人机交互,以及考虑诊断、患者特征或就医地点的差异。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】o1-preview在医疗诊断中远超人类,赛博看病指日可待?
自20世纪50年代以来,评估鉴别诊断生成器的首要标准是《新英格兰医学杂志》(NEJM)发表的临床病理学会议(CPCs)病例。这是也是评估o1-preview的第一个基准。
并从全部病例中剔除了7个病例,因为这些病例要求进行下一次检查是不合理的。
为评估临床推理, NEJM Healer案例专门设计了虚拟患者遭遇。
在真实案例基础上,25位医生专家利用共识方法开发了5个临床实例(clinical vignettes)。
两位内科医生对o1-preview在六个诊断推理案例中的回答进行了评分,评价结果较为一致。o1-preview的中位数评分为97% (图5B)。
诊断概率推理案例
此研究也有四处主要的局限性。
首先,o1-preview有啰嗦的倾向,可能会在试验中取得更高得分。
https://arxiv.org/pdf/2412.10849
查看原图 57K