智猩猩GenAI整理
编辑:六一
当前最先进的多模态模型普遍面临三大痛点:模态支持不全、生成质量欠佳、计算成本高昂。GPT-4o虽强却闭源,开源模型又总在某个模态"瘸腿"——Ming-Omni的出现彻底打破这一僵局!
这项来自蚂蚁集团Inclusion AI团队的突破性研究,是首个媲美GPT-4o的开源多模态模型,它实现了:
- 全模态统一架构(图像/语音/视频/文本)
- 专业级图像生成(FID4.85超越主流模型达到 SOTA)
- 实时语音交互(延迟降低35%)
- 极致效率(2.8B参数媲美7B模型性能,在多个任务上均实现SOTA或接近SOTA的性能)
所有技术细节和模型权重已完全开源!接下来,我将从模型的方法、数据和评估三个维度,为大家介绍这项工作的核心贡献。
论文标题:
Ming-Omni: A Unified Multimodal Model for Perception and Generation
论文链接:
https://arxiv.org/html/2506.09344v1
项目地址:
https://github.com/inclusionAI/Ming/tree/main
方法
总体来说,Ming-Omni首先通过专用编码器提取视觉和音频的特征表示,随后将这些标记与文本标记结合,并通过Ling(基于MoE的百灵大模型,配备模态专用路由器)进行处理。最终,模型通过音频解码器生成语音,并借助扩散模型实现图像生成。
下面我们将详细介绍Ming - Omni如何在所有模态之间实现统一的理解和生成:
1.统一的多模态理解
专用编码器:使用Qwen2.5视觉编码器处理图像和视频,Whisper音频编码器处理音频,将不同模态的输入转换为统一的嵌入表示。
MoE架构:采用混合专家模型(MoE),通过模态特定的路由器将不同模态的输入分配给对应的专家处理,从而促进模式特异性信息的更精确和更有效的路由。
训练策略优化:在预训练阶段采用了逐步平衡策略,在指令调优阶段引入了动态自适应平衡策略,根据每个模态的收敛速度动态调整损失权重,从而缓解不同模态之间的冲突,并确保所有模态之间的最优训练进度。
2.统一的语音理解与生成
语音理解:利用Whisper编码器提取音频特征,并通过线性层和卷积下采样层将其映射到语言模型的潜在空间。引入元数据(如对话场景、环境信息)作为上下文提示,提升模型对音频的理解能力。通过预测输入音频的语言标识符,显著提升方言识别性能。
语音生成:为解决文本与音频标记间的序列长度差异问题,作者采用字节对编码(BPE)对音频分词器提取的离散标记进行处理,提升了训练和推理效率,且完全不会损失生成音频的质量。此外,该方法还能促进模型学习音频内容中的组合信息,从而增强韵律表现。
3.统一的图像理解与生成
图像理解:采用Qwen2.5-VL视觉主干,保留其架构,但在图像和视频上联合重新训练。
图像生成:创新性地提出了一种轻量级的桥接方法,利用多尺度可学习的标记和多尺度表示对齐,将MLLM的语义理解与扩散解码器结合。
4.整体训练流程
Ming - Omni的整体训练过程分为感知训练和生成训练两个截然不同的阶段。
感知训练阶段:包括预训练阶段、指令微调阶段和对齐微调阶段,每个阶段都被分为三个子阶段,每个子阶段都被设计为增量式地加入额外的任务。
生成训练阶段:并行训练文本到语音和图像生成任务,冻结MLLM参数,仅训练生成模块(如音频解码器和扩散模型)。
数据
作者收集了涵盖多种模态和任务的大规模训练数据,通过整合开源数据和构建多套数据生产流程构建了多样化训练集。由于各训练阶段的目标、模态和任务各不相同,作者还为每个阶段专门配置了不同的数据方案。
1.图像数据:
图像理解数据:包括标注数据(通过迭代自进化框架优化质量)、结构化数据(增强知识密集型查询能力)、百科全书数据(支持专业领域知识)、GUI数据(用于复杂交互任务)和偏好数据(在对齐调整阶段优化MLLM响应)。
图像生成数据:来自高质量开源数据集和风格迁移数据,支持文本到图像的生成和编辑任务。
2.音频数据:通过精心设计的过滤流程获取高质量音频片段,涵盖多语言和多方言场景。数据标注通过迭代训练的音频标注器完成,确保多样性和质量。
3.视频数据:主要来自开源数据集和公共网站,通过分层标注流程生成密集视频描述和问答对,支持时空内容理解。
4.文本数据:来源于已有的语言模型数据集(如Ling和M2-omni),用于维持和提升语言能力。
评估
(部分实验数据)
通过系统性实验全面验证了Ming-Omni的多模态性能。在公开基准测试中,模型在50余项评测任务表现优异,如图像理解(OpenCompass 80.8%)、语音识别(Aishell1 WER 1.47%)等;自建评测集进一步证明其在专业领域(百科知识52.03%准确率)和复杂场景(方言识别WER 13.84%)的领先性。综合量化分析显示,模型仅激活2.8B参数即实现跨模态性能平衡,图像生成(FID 4.85)与理解(RefCOCO 90.6%)任务协同优化,在计算效率和低资源适应性方面均展现显著优势。
(部分实验数据)
可视化结果直观呈现了模型在多模态推理与生成任务中的卓越表现,验证了统一架构设计的有效性。