Nature Communications | 上海交大发布基于大规模互联网数据的多模态放射学诊断基础模型

图片

上海交大发布基于大规模互联网数据的多模态放射学诊断基础模型以及数据集 RP3D-Diag。其数据集成为当前领域内最大规模、多模态案例级的大型影像学数据集。


近日发表在自然通讯 (Nature Communication) 的论文 RP3D-Diag 构建了一个大规模的互联网多模态放射学影像数据集,包含 4 万 + 临床案例,5 千 + 疾病种类,涵盖 7 种解剖部位和 9 种成像模态,并据此训练并开源了一个多模态、跨部位、多病种的病例级放射学综合诊断基础模型,并在超过 20 个外部数据集上展现出了优越的性能。

该论文的主要作者来自上海交通大学,上海人工智能实验室的智慧医疗联合团队,共同第一作者为上海交通大学博士生郑乔予,赵唯珂和吴超逸,其它作者包括张小嫚博士,代立松博士,博士生管恒毓,李跃华教授和张娅教授,共同通讯作者为上海交通大学人工智能学院王延峰教授和谢伟迪副教授。

图片


论文链接:
www.nature.com/articles/s41467-024-54424-6

代码仓库:
github.com/MAGIC-AI4Med/RP3D-Diag


在临床医学中,精准诊断是有效治疗的必要条件,基于放射影像学的疾病诊断在临床医疗中有重要意义。现有的医疗领域基于放射学影像的疾病诊断的模型具有以下几个挑战:

* 领域单一:一个模型通常只针对某一类疾病的诊断,比如专用于阿尔兹海默症的诊断模型,无法用于其它种类疾病的诊断。

* 模态单一:一个模型通常只针对某一类输入,如只诊断 MRI 或 CT,或只能诊断固定位置的图像上的疾病。

* 知识有限:模型通常只针对特定的疾病进行分类,而无法通过背景知识进行理解疾病的具体含义,以及内在联系。

* 缺乏标准化:不同放射学影像数据集对于疾病定义的标准和粒度有所不同,缺乏基于国际通用标准的系统化专业性整理。

该研究团队对上述挑战进行了深入研究并提出了如下的解决方案:

* 建立了一个大规模放射学图像的诊断数据集,包含 5,568 种疾病,并对应到了 930 种医学上统一的 ICD-10-CM 编码,其中包含 40,936 个病例 (195,010 份扫描)。这些病例涵盖了 9 种不同的成像模态和 7 常见的身体解剖部位。

* 将问题定义成了一个多标签,长尾的图像分类问题,并提出了一种新颖的模型架构,可以处理来自不同成像模态的任意数量的输入扫描,该架构经过知识增强训练,高效地将医疗领域知识结合起来。

* 为多解剖部位的多模态放射学影像长尾诊断建立了一个新的多维度全方位评测基准。

大规模多模态影像数据集 (RP3D-DiagDS) 构建

在数据集构建方面,研究团队通过利用互联网数据 (Radiopaedia,一个大型放射学百科网站),收集了一个包含 40,936 个案例(195,010 份扫描)的包含 7 种解剖部位(头颈,胸部,乳房,腹部和盆腔,上肢,下肢)和 9 种成像模态(计算机断层扫描、磁共振成像、x 射线、超声、透视、核医学、乳房 x 线摄影、血管造影和钡灌肠)。该数据集是当前领域内最大规模、多模态案例级的大型影像学数据集。

数据集的构建如图 1 所示,主要包含 3 个步骤:

1️⃣ 大规模互联网数据爬取(已取得 Radiopaedia 官方同意)。

2️⃣ 大型语言模型与临床医生双重筛选过滤,挑选高质量案例。

3️⃣ 将数据的标签对标国际通用标准 ICD-10-CM 编码,进行数据标准化处理。

图片

图1:数据集构建流程

首先,我们从 Radiopaedia(一个开源且经过专家审查的网站)爬取数据,包括病例描述、2D/3D 放射影像以及相关的 Radiopaedia 文章。

然后,我们将文章名称作为图片的疾病标签,使用大型语言模型工具(如 GPT-4)过滤,并手动检查是否存在不匹配的情况。

最后,我们将全部标签映射到 ICD-10-CM 代码进行标准化,并由一名具有 10 年经验的临床医生进行交叉核查。 


针对构建的 RP3D-DiagDS 数据集,研究团队对其数据分布进行了深入分析,具体而言,分析分为 3 个方面:


1️⃣ 数据集中 9 种不同成像模态图像的数量分布情况。

2️⃣ 数据集中 7 种不同解剖部位图像的数量分布情况。

3️⃣ 数据集中的疾病标签分布和覆盖情况。

图片


图 2:RP3D-DiagDS 数据集的分布情况
a. 异常和正常病例的成像模态分布,各自标注了类别名称、病例数量及占比;
b. 解剖部位成像分为异常和正常两类展示;
c. 条形图显示每个病例的图像数量分布,其中单个病例可能包含患者历史扫描、不同模态和不同角度的多张图像;
d. 疾病和 ICD-10-CM 类别呈现长尾分布,按病例数量分为头部、中部和尾部 3 类,坐标轴采用虚线表示截断以突出主要分布。

如图 2 所示,在成像模态覆盖方面,RP3D-DiagDS 包含来自 9 种模态的图像,即计算机断层扫描 (CT)、磁共振成像 (MRI)、X 光、超声、透视、核医学、乳房 X 线摄影、DSA(血管造影)和钡灌肠检查。每个病例可能包含多种模态的图像,以确保对疾病进行精确和全面的诊断。


总体而言,约 19.4% 的病例包含两种模态的图像,约 2.9% 的病例涉及 3~5 种模态的图像。其余病例则与单一模态的图像扫描相关。所有异常和正常样本中模态的分布如子图 a 所示。


除了全面的模态覆盖外,RP3D-DiagDS 还包含来自各种解剖区域的图像,包括头颈、脊椎、胸部、乳房、腹部和盆腔、上肢和下肢七大主要区域,全面覆盖了人体的各个部位。其中头颈和腹部盆腔的占比相对最大,共占到了异常类别和正常类别分别 63.8% 和 42.2% 的比例。


在疾病覆盖方面,对于疾病和病症分类,每个病例可以对应多个疾病,使 RP3D-DiagDS 成为一个多标签分类数据集。如图 1d 所示,分布呈现出极端的长尾模式,使得这种 2D 和 3D 图像分类问题成为一个长尾多标签分类任务。总共有 5,568 种疾病/异常映射到 930 个 ICD-10-CM 类别。


研究团队将病例数量大于 100 的类别定义为「头部类」,病例数量在 30 到 100 之间的定义为「中间类」,病例数量少于 30 的定义为「尾部类」。


多模态放射学影像诊断模型 (RP3D-DiagModel) 搭建

研究团队提出了一种能够处理复杂案例级医疗影像输入的多标签诊断模型框架,其中的亮点包括:

1️⃣ 引入ResNet-ViT 混合框架,使得模型能够同时处理 2D (如 X-ray) 和 3D (如 CT) 的输入;

2️⃣ 引入Fusion模块,使模型能够支持任意数量的图像输入,模型将据此做出综合诊断;

3️⃣ 引入知识增强策略,使模型能够更好地建模疾病间的关系,缓解了数据长尾问题带来的影响。

图 3 所示的 a,b,c 三个模块分别展现了以上 3 点的实现细节。


图片

图3:影像学诊断模型框架

模型包括视觉编码器的结构和融合模块,以及知识增强模块。

(a) 显示了视觉编码器的细节。我们设计 ResNet,ViT 以及二者混合的架构。

(b) 显示了基于 transformer 的融合模块,实现了案例级信息融合。

(c) 展示了知识增强的方法,预先训练一个具有额外医学知识的文本编码器,即同义词、描述和层次,称为知识编码器,然后将文本嵌入作为一个分类器进行诊断。

多维度评测基准 (Benchmark) 建立

为了全方位衡量提出的多模态放射学影像模型表现,研究团队通过以下几种方式进行评估: 


1️⃣ Zero-shot:衡量模型在外部临床数据集上的零样本诊断表现


2️⃣ Fine-tune:衡量模型作为基础诊断模型在少样本微调情况下的迁移能力


3️⃣ 显著性图可视化:展现模型在推理过程中的核心关注点以解释诊断结果


4️⃣ 消融实验,衡量模型中不同模型结构和优化策略带来的诊断性能提升显著性


研究团队针对 RP3D-Diag 诊断模型的评估结论可以总结为以下四个要点:


一、超越其它同类模型的zero-shot诊断性能


Zero-shot 实验是衡量一个模型性能表现和泛用能力的最佳标准之一。在研究团队提出的 zero-shot 实验中,设置了 6 个涵盖头颈、胸部、腹部、四肢、脊椎以及乳房等 6 个解剖部位以及 CT、MRI、X 光、超声等 5 种成像模态的数据集,全方位评测了 RP3D-DiagModel 对比于另外两个 SOTA 基础模型:RadImageNet (BMEII团队) 和 BiomedCLIP (微软)的性能优势。


如图 4 所示,为评估模型在外部数据集上对正常/异常病例的迁移能力,研究团队使用了包括 Brain-Tumor (405 例正常,906 例异常)、POCUS (256 例正常,302 例异常)、CT-Kidney (1,037 例正常,1,453 例异常)、MURA (1,667 例正常,1,530 例异常) 和 VinDr-Spine (1,070 例正常,1,007 例异常)在内的共计 9,634 个病例进行测试。


这些数据来自不同地区的医疗中心,可以很好地评估模型在 zero-shot 条件下区分正常和异常病例的性能。研究团队在 5 个 zero-shot 数据集上与其他基础模型 RadIN 和 BiomedCLIP 进行 AUC 和 AP 指标的比较。


结果表明,研究团队的模型在所有 5 个数据集上都展现出显著优于 RadIN 和 BiomedCLIP 的性能,证实了该模型在跨中心临床实践中,在不同解剖部位的 zero-shot 诊断上具有始终优越的性能表现。


图片

图 4:6 个外部临床数据集上的 zero-shot 实验对比


二、媲美专家模型的基础诊断能力和可迁移性能


Fine-tune 实验是衡量模型基础能力和迁移性能的重要方式,它主要评估了模型是否具有对医疗图像的基本理解能力和有效编码能力。研究团队在总共 22 个外部数据集上衡量了模型在不同的小样本微调设置下与每个数据集 SOTA 水平的专家模型之间的性能对比。


如图 5 所示,在对外部数据集进行微调时,研究团队的模型相比从头训练的模型,在所有 22 个外部数据集的不同数据比例下都展现出显著的性能提升。在大多数情况下,该模型甚至超越了专门为目标任务精心设计的专家级 SOTA 模型,这表明互联网上公开共享的医疗数据是一个巨大且宝贵的资源,可以作为医疗领域优质的大规模监督训练数据集。


图片

图 5:模型不同程度微调在 22 个外部数据集上 AUC 分数的比较


三、准确的可解释化诊断过程


显著性图 (Saliency Map) 是可解释性 AI 中的常见表现形式之一,大量相关研究表明模型推理过程梯度较为显著的区域可以表示模型主要关注的核心区域,能很大程度上代表模型的推理依据。研究团队选取了不同解剖部位和不同成像模态下不同异常案例的图像,通过 EigenGradCAM 的方式获取了一系列显著性图。


在图 6b (5) 所示的「尺骨茎突撞击综合征」案例中,模型在推理过程中准确定位了尺骨的位置,而不会被手指上佩戴的戒指等其他异常情况干扰。

在图 6b (6) 和 b(7) 所示的其他案例中,模型正确定位了「大叶性肺炎」和「心脏肥大」的异常区域,表明诊断是基于视觉线索进行的,而不是仅仅依赖于成像模态和成像视角。

这些可视化结果展示了模型在识别各种疾病类别相关解剖结构方面的精确性,即使在同一图像中存在其他潜在干扰或异常情况时也是如此,说明了其在医疗疾病诊断方面的鲁棒性和特异性。


图片

图 6:关键帧的显著性图
红色表示模型在推断相应疾病类别时关注的区域。这表明 RadDiag 能够准确识别病变或异常区域的位置。


四、最优的模型结构组合


通过一系列的消融实验,研究团队在模型结构和优化策略的过程中同样进行了一系列针对性实验,包括但不限于以下两个主要方面的选择:


(一)衡量采用不同的视觉特征提取网络对模型性能造成的影响


针对视觉特征提器网络结构中提到的三种不同架构:基于 ResNet,基于 ViT 和基于 ResNet-ViT 混合架构。研究团队在数据集的一个子集上进行了如图 7 所示的实验。

研究团队得出 3 个观察结果:(i) 基于 ResNet-ViT 混合的模型性能显著优于基于ViT和基于ResNet的模型;(ii) 提升视觉编码器的特征维度会带来显著改进,例如 ResNet-34+6 层 ViT 相比 ResNet-50+6 层 ViT;(iii) 增加 ViT 基础模型中共享编码器层的数量并未带来显著的性能提升,但会产生大量计算开销,例如 ResNet-50+6 层 ViT 相比 ResNet-50+12 层 ViT。


图片

图7:对视觉编码器架构各种设置的消融研究


(二) 衡量 Fusion 模块和知识增强策略对于模型诊断性能提升的显著性


Fusion 模块的引入使得模型能够同时处理多张 2D/3D 图像的混合输入;知识增强的策略则引入疾病标签和 ICD 编码的文本特征,强化模型对长尾标签的理解能力。

如图 8 所示:子图 a-f 中的实线表示中位数 AUC 值。这个值是通过对每个类别随机抽取 1 千个样本并计算中位数 AUC 值得出的。这个过程重复多次 (1 千次),最终曲线代表这些值的中位数。ROC 曲线由实线表示。每条实线旁边都有一个阴影区域,表示 95% 置信区间 (CI)。对于每种实现方式,这个阴影区域显著高于实线上方的部分。这意味着实线所代表的 AUC 值通常高于不同数据分割中的类别平均值。

如图所示,最高 AUC 值达到 0.97,最低值为 0.91,这种观察到的模式表明,存在一些类别比其他类别更难学习。

综合而言,从图中可以看出,使用两种优化方式后的模型性能曲线无论是在头部、中部还是尾部的疾病 /ICD 类别中都具备明显更高的性能表现,这表明两种优化方式都在长尾疾病的诊断上起到了关键作用。

图片

图8:不采取任何增强策略/采用Fusion模块/采用Fusion+知识增强模块 三种设置下的模型CI曲线

临床研究价值与局限

研究团队提出的 RP3D-DiagDS 数据集通过支持多模态多次扫描的病例级诊断、覆盖大量长尾罕见病以及提供预训练基础,为临床实践中的精准诊断和医学研究提供了重要基础支持。


1️⃣ 为研究基于多模态和多次扫描输入的病例级诊断AI模型建立了数据基础。在临床实践中,患者在诊疗过程中通常会在不同医疗科室接受多次放射学检查。现有的仅接受单一图像扫描的疾病分类研究难以模拟这种真实场景。通过提供病例级标注和多模态数据,RP3D-DiagDS 数据集为 future research 提供了探索病例级诊断 AI 系统的可能性。

2️⃣ 为医学 AI 领域提供了对标国际通用标准的规范化大规模预训练数据集。RP3D-DiagDS 数据集涵盖超过 5 千种疾病类别,为后续研究提供了丰富的预训练资源。这种大规模预训练数据集的构建对推进医学 AI 领域的发展具有重要意义,可以帮助研究人员探索更有效的模型架构和训练方法。

3️⃣ 作为预训练数据集,它能够帮助小样本临床场景下的模型训练。在临床应用中,尤其是对于罕见疾病,通常只能获得极少数病例,因此在 RP3D-DiagDS 数据集上进行预训练,仅在小样本数据上微调可以展现出较好的效果。

研究团队构建的 RP3D-Diag 模型作为一个基础研究框架,展示了整合多模态多维度案例级数据的潜力,为未来面向诊断任务的医学 AI 研究提供了新的思路。


1️⃣ 研究团队提出的模型突破了传统单一图像输入的局限,实现了基于案例级别的多模态诊断能力。在实际临床场景中,患者往往需要进行多次不同类型的影像学检查(如 CT、MRI、X 光等),并在治疗过程中进行多次随访检查。模型能够综合分析这些多模态、多组检查的医学影像数据,从而提供更全面、更准确的诊断建议。这种框架设计考虑到临床场景中患者往往需要进行多次不同类型的影像学检查的特点,为未来研究多模态医学数据分析提供了参考。

2️⃣ 作为一个基础视觉模型,研究团队提出的模型具有迁移学习潜力。它可以作为其他医学影像任务的基础模型,通过迁移学习快速适应新的临床应用场景。这种预训练模型的方式不仅能够显著减少在新任务上的训练时间和所需数据量,还能提高模型在新任务上的性能表现。这对于医疗资源有限的机构和罕见病诊断等小样本场景具有启发意义。

然而,该研究仍存在以下两个主要局限性:


1️⃣ 对于长尾分布中的罕见病种类,当前模型的诊断效果仍有待提高。由于这些疾病样本数量少、特征不明显,即使在引入知识增强的策略之后,在一部分较难案例上,模型仍然难以有效学习其特征表征。

2️⃣ 单纯依靠影像学数据可能无法满足某些疾病的诊断需求。在实际临床实践中,准确诊断往往需要结合患者的临床症状、病史记录、实验室检查等多维度信息。未来研究需要考虑如何整合更多临床相关信息。

图片

 往期推荐