上海交大发布基于大规模互联网数据的多模态放射学诊断基础模型以及数据集 RP3D-Diag。其数据集成为当前领域内最大规模、多模态案例级的大型影像学数据集。
论文链接:
www.nature.com/articles/s41467-024-54424-6
代码仓库:
github.com/MAGIC-AI4Med/RP3D-Diag
大规模多模态影像数据集 (RP3D-DiagDS) 构建
首先,我们从 Radiopaedia(一个开源且经过专家审查的网站)爬取数据,包括病例描述、2D/3D 放射影像以及相关的 Radiopaedia 文章。
然后,我们将文章名称作为图片的疾病标签,使用大型语言模型工具(如 GPT-4)过滤,并手动检查是否存在不匹配的情况。
最后,我们将全部标签映射到 ICD-10-CM 代码进行标准化,并由一名具有 10 年经验的临床医生进行交叉核查。
针对构建的 RP3D-DiagDS 数据集,研究团队对其数据分布进行了深入分析,具体而言,分析分为 3 个方面:
如图 2 所示,在成像模态覆盖方面,RP3D-DiagDS 包含来自 9 种模态的图像,即计算机断层扫描 (CT)、磁共振成像 (MRI)、X 光、超声、透视、核医学、乳房 X 线摄影、DSA(血管造影)和钡灌肠检查。每个病例可能包含多种模态的图像,以确保对疾病进行精确和全面的诊断。
总体而言,约 19.4% 的病例包含两种模态的图像,约 2.9% 的病例涉及 3~5 种模态的图像。其余病例则与单一模态的图像扫描相关。所有异常和正常样本中模态的分布如子图 a 所示。
除了全面的模态覆盖外,RP3D-DiagDS 还包含来自各种解剖区域的图像,包括头颈、脊椎、胸部、乳房、腹部和盆腔、上肢和下肢七大主要区域,全面覆盖了人体的各个部位。其中头颈和腹部盆腔的占比相对最大,共占到了异常类别和正常类别分别 63.8% 和 42.2% 的比例。
在疾病覆盖方面,对于疾病和病症分类,每个病例可以对应多个疾病,使 RP3D-DiagDS 成为一个多标签分类数据集。如图 1d 所示,分布呈现出极端的长尾模式,使得这种 2D 和 3D 图像分类问题成为一个长尾多标签分类任务。总共有 5,568 种疾病/异常映射到 930 个 ICD-10-CM 类别。
研究团队将病例数量大于 100 的类别定义为「头部类」,病例数量在 30 到 100 之间的定义为「中间类」,病例数量少于 30 的定义为「尾部类」。
多模态放射学影像诊断模型 (RP3D-DiagModel) 搭建
图3:影像学诊断模型框架
模型包括视觉编码器的结构和融合模块,以及知识增强模块。
(a) 显示了视觉编码器的细节。我们设计 ResNet,ViT 以及二者混合的架构。
(b) 显示了基于 transformer 的融合模块,实现了案例级信息融合。
(c) 展示了知识增强的方法,预先训练一个具有额外医学知识的文本编码器,即同义词、描述和层次,称为知识编码器,然后将文本嵌入作为一个分类器进行诊断。
多维度评测基准 (Benchmark) 建立
为了全方位衡量提出的多模态放射学影像模型表现,研究团队通过以下几种方式进行评估:
1️⃣ Zero-shot:衡量模型在外部临床数据集上的零样本诊断表现
2️⃣ Fine-tune:衡量模型作为基础诊断模型在少样本微调情况下的迁移能力
3️⃣ 显著性图可视化:展现模型在推理过程中的核心关注点以解释诊断结果
4️⃣ 消融实验,衡量模型中不同模型结构和优化策略带来的诊断性能提升显著性
研究团队针对 RP3D-Diag 诊断模型的评估结论可以总结为以下四个要点:
一、超越其它同类模型的zero-shot诊断性能
Zero-shot 实验是衡量一个模型性能表现和泛用能力的最佳标准之一。在研究团队提出的 zero-shot 实验中,设置了 6 个涵盖头颈、胸部、腹部、四肢、脊椎以及乳房等 6 个解剖部位以及 CT、MRI、X 光、超声等 5 种成像模态的数据集,全方位评测了 RP3D-DiagModel 对比于另外两个 SOTA 基础模型:RadImageNet (BMEII团队) 和 BiomedCLIP (微软)的性能优势。
如图 4 所示,为评估模型在外部数据集上对正常/异常病例的迁移能力,研究团队使用了包括 Brain-Tumor (405 例正常,906 例异常)、POCUS (256 例正常,302 例异常)、CT-Kidney (1,037 例正常,1,453 例异常)、MURA (1,667 例正常,1,530 例异常) 和 VinDr-Spine (1,070 例正常,1,007 例异常)在内的共计 9,634 个病例进行测试。
这些数据来自不同地区的医疗中心,可以很好地评估模型在 zero-shot 条件下区分正常和异常病例的性能。研究团队在 5 个 zero-shot 数据集上与其他基础模型 RadIN 和 BiomedCLIP 进行 AUC 和 AP 指标的比较。
结果表明,研究团队的模型在所有 5 个数据集上都展现出显著优于 RadIN 和 BiomedCLIP 的性能,证实了该模型在跨中心临床实践中,在不同解剖部位的 zero-shot 诊断上具有始终优越的性能表现。
二、媲美专家模型的基础诊断能力和可迁移性能
Fine-tune 实验是衡量模型基础能力和迁移性能的重要方式,它主要评估了模型是否具有对医疗图像的基本理解能力和有效编码能力。研究团队在总共 22 个外部数据集上衡量了模型在不同的小样本微调设置下与每个数据集 SOTA 水平的专家模型之间的性能对比。
如图 5 所示,在对外部数据集进行微调时,研究团队的模型相比从头训练的模型,在所有 22 个外部数据集的不同数据比例下都展现出显著的性能提升。在大多数情况下,该模型甚至超越了专门为目标任务精心设计的专家级 SOTA 模型,这表明互联网上公开共享的医疗数据是一个巨大且宝贵的资源,可以作为医疗领域优质的大规模监督训练数据集。
三、准确的可解释化诊断过程
显著性图 (Saliency Map) 是可解释性 AI 中的常见表现形式之一,大量相关研究表明模型推理过程梯度较为显著的区域可以表示模型主要关注的核心区域,能很大程度上代表模型的推理依据。研究团队选取了不同解剖部位和不同成像模态下不同异常案例的图像,通过 EigenGradCAM 的方式获取了一系列显著性图。
四、最优的模型结构组合
通过一系列的消融实验,研究团队在模型结构和优化策略的过程中同样进行了一系列针对性实验,包括但不限于以下两个主要方面的选择:
(一)衡量采用不同的视觉特征提取网络对模型性能造成的影响
图7:对视觉编码器架构各种设置的消融研究
(二) 衡量 Fusion 模块和知识增强策略对于模型诊断性能提升的显著性
综合而言,从图中可以看出,使用两种优化方式后的模型性能曲线无论是在头部、中部还是尾部的疾病 /ICD 类别中都具备明显更高的性能表现,这表明两种优化方式都在长尾疾病的诊断上起到了关键作用。