上海交大团队揭示基于语言的多模态视觉-大脑对齐的深层语义不确定性感知

图片

Bratrix 是首个以语言语义为核心锚定的端到端多模态视觉 - 脑对齐框架,旨在解决传统方法中视觉表征语义解耦不足、脑信号噪声干扰大及跨模态对齐鲁棒性弱的问题,其方法设计围绕“语义解耦 - 不确定性感知 - 语言锚定对齐 - 两阶段训练”四大核心逻辑展开:

首先,通过视觉语义解耦模块将视觉刺激按人类感知粒度拆分为前景、背景、空间布局、颜色、纹理五个层级,利用ViT-L-14、ResNet 等预训练模型提取各层级特征表征,实现视觉语义的精细化拆解;同时,语言语义解耦模块借助 BLIP 模型生成“粗略描述 - 细节描述 - 位置属性 - 心理印象”四类文本语义,构建跨模态对齐的语义锚点。

其次,针对脑信号噪声问题,引入视觉 - 语言语义不确定性感知模块:通过前馈网络将视觉与文本特征映射为狄利克雷参数以建模语义证据,基于该参数计算各语义组件的不确定性,并转换为可靠性权重对特征进行加权融合,过滤噪声干扰。

再次,语言锚定视觉 - 脑对齐模块为跨模态关联核心:先通过 iTransformer 编码器对脑信号进行编码,构建“脑 - 语言”“视觉 - 脑”交互矩阵;再利用对称 KL 散度损失对齐脑与视觉表征在共享latent 空间的分布,同时引入可学习先验与重加权函数(结合 sigmoid 激活与平均池化)优化矩阵质量,

最终将语言对齐嵌入与初始特征拼接为统一表征。训练上采用“单模态预训练→多模态微调”两阶段策略:先在单一脑信号模态上预训练语义对齐模块以建立模态内语义先验,再冻结 SUP、语言锚定对齐等核心模块参数,仅训练模态适配器并通过门控函数平衡语义先验与模态特异性参数,得到性能更优的 Bratrix-M,实现跨模态对齐精度与泛化能力的提升。

图片

图1直观展示 Bratrix 的核心逻辑:以语言为中间语义锚点,左侧视觉刺激经语义解耦提取多维度特征,右侧脑信号(EEG/MEG/fMRI)经编码后,二者均与语言语义对齐,最终实现 “视觉 - 语言 - 脑” 的跨模态关联,清晰呈现 “语言中介” 的关键作用,区别于传统“视觉 - 脑直接对齐” 的思路。


图片

图2详细拆解 Bratrix 的四大模块与四阶段流程:模块层面包含视觉语义解耦、脑编码器、语言语义解耦、语言锚定对齐;流程层面依次为单模态预训练(建立模态内语义先验)、多模态微调(优化跨模态一致性)、推理(生成统一嵌入)、下游任务(检索 / 重建 / 字幕),图中还标注了核心模型(如 CLIP、BLIP、iTransformer)的作用位置,帮助理解各组件协同机制。


图片

表1是 Bratrix 框架的核心性能验证表,旨在对比 Bratrix与 Bratrix-M,与 11 种现有 SOTA 方法(如 LSTM、EEGNet、ViEEG 等)在三大脑信号数据集(THINGS-EEG2、THINGS-MEG、THINGS-fMRI)上的图像检索能力,实验分为subject-dependent(受试者依赖,训练与测试用同一受试者数据)和subject-independent(受试者独立,留一法测试,训练用其他受试者数据)两种设置,核心评价指标为不同候选类别数量(2-way、4-way、50-way、200-way)下的 Top-1 与 Top-5 准确率(类别数越多,任务难度越大)。


subject-dependent 设置(主流评估场景):Bratrix 与 Bratrix-M 全面领先现有方法。以难度最高的 200-way Top-1 为例,THINGS-EEG2 上 Bratrix 达 51.5%、Bratrix-M 达 55.3%,较最优基线 ViEEG(40.5%)提升超 14.3%;THINGS-MEG 上二者分别达 26.8%、27.3%,超 FLORA24.5%;THINGS-fMRI 上达 44.5%、46.1%,超 ViEEG35.8%。且随着类别数增加,Bratrix 的优势更显著(如 4-way Top-1 在 EEG 上达 97.9%,接近满分),证明其语义对齐的稳定性。

subject-independent 设置:尽管跨受试者数据分布差异大,Bratrix 仍保持优势。THINGS-EEG2 的 2-way Top-1 达 91.8%、Bratrix-M 达 93.0%,超 ViEEG(88.7%);200-way Top-1 达 20.5%、23.5%,是 LSTM的 3 倍左右,证明其对个体差异的鲁棒性。

Bratrix-M 的增益:多模态微调后,Bratrix-M 在所有数据集、所有指标上均优于基础版,平均提升 2%-5%,验证两阶段训练策略的有效性。

图片

表2 是组件有效性验证表,在 subject-dependent 设置下,通过三类消融实验(语言语义解耦消融、视觉语义解耦消融、模块消融),量化分析 Bratrix 各核心组件的贡献,实验数据集与指标同 Table 1,以“逐步移除 / 添加组件”的方式对比性能变化。


语言语义解耦消融:验证不同语言语义维度的作用。当融入“Physical 语义”(对应物体物理属性,如纹理、颜色关联的文本描述)时,性能最优(EEG 的 200-way Top-1 达 51.5%),其次是“Psychic 语义”(心理印象,50.1%),而仅用“Primary 语义”(基础类别描述)时性能最低(45.1%),证明细粒度、多维度语言语义对对齐的关键作用。

视觉语义解耦消融:验证不同视觉语义维度的作用。当同时融入“Texture(纹理)”与“Foreground/Background(前景 / 背景)”时性能最优(EEG 的 200-way Top-1 达 51.5%),仅用“Background(背景)”时性能最低(42.9%),说明视觉语义的层级化拆解(低层级纹理 + 高层级前景)能有效捕捉视觉特征,辅助跨模态对齐。

模块消融:验证核心模块的必要性。从“基线模型”(无 SUP、无 SLA 模块,200-way Top-1 44.9%)开始,添加“语义不确定性感知(SUP)模块”后提升至 46.9%,再添加“语言锚定对齐(SLA)模块”提升至 50.4%,最后加入“KL 散度损失(完整 Bratrix)”提升至 51.5%,证明各模块层层递进,共同支撑框架性能,其中 SLA 模块(语言锚定)的增益最显著(提升 3.5%)。

图片

图3 (a) 展示 EEG 检索的 Top-10 结果,可见 Bratrix 检索样本语义相关性高(如 “船” 类检索结果均为船舶相关);(b)呈现语义组件(颜色、纹理)、不确定性权重(数值标注)与语言 - EEG 矩阵的对应关系,验证不确定性感知的有效性;(c)(d) 对比不同方法及消融组件的 Top-5 性能,证明 Bratrix 及完整模块的优势;(e) 展示 Tool、Food 等 6 类别的 EEG-RSM,可见类别间语义区分清晰(如 Food 类内部相关性高),验证 Bratrix 捕捉粗粒度语义的能力。


图片

通过 T-SNE 降维展示嵌入分布:(a)(c)为受试者类别可视化,Bratrix-M 的 EEG 嵌入更分散(跨受试者统一性更强);(b)(d) 为语义类别可视化,Bratrix-M 的视觉嵌入聚类更紧凑(语义一致性更高),直观证明多模态微调对跨受试者泛化与语义对齐的提升作用。


图片

图5 (a) 显示受试者间性能差异显著(如 Subject 3 的 EEG 检索精度比 Subject 7 高 12%),体现个体差异挑战;(b) 对比可见,语言锚定对齐的重建结果优于粗对齐;(c) 展示 EEG 驱动的字幕生成示例,生成文本与原图语义匹配。图6 (a) 验证 MEG/fMRI 检索的有效性,Top-10 结果语义一致性高;(b) 显示 Bratrix-M 的重建图像与字幕均优于 Bratrix,证明多模态微调的价值。

这项研究由上海交通大学博士生丰泽辉担任论文第一作者,新加坡南洋理工大学Cuntai Guan教授和上海交通大学韩挺教授担任通讯作者。

仅用于学术分享,若侵权请留言,即时删侵!