NSR综述:多模态大语言模型

海归学者发起的公益学术平台

分享信息,整合资源

交流学术,偶尔风月

图片

图片


综述题目

A Survey on Multimodal Large Language Models

第一作者

殷述康,傅朝友,赵思蕊

通讯作者

陈恩红,傅朝友,赵思蕊

通讯单位

中国科学技术大学,南京大学

项目链接

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models (持续更新最新相关文献)
论文链接:https://doi.org/10.1093/nsr/nwae403

背景

近年来,大语言模型 (LLM) 已成为自然语言处理领域最热门的研究方向之一。这些模型通过持续增加数据规模和参数量来实现性能的飞跃,不仅能够完成传统的自然语言处理任务如文本分类、命名实体识别等,还展现出解决更复杂问题的能力,例如高级对话生成及代码辅助编写。

然而,纯文本的大语言模型存在固有限制:它们仅能处理文本输入输出,而现实世界中的信息通常是多模态的,包括图像、声音等多种形式,因此纯文本大模型在需要视觉或其他模态输入的任务中受限。

为克服这一局限性,多模态大语言模型 (MLLM) 应运而生。多模态大模型在大语言模型原有的强大泛化和推理能力基础上,进一步引入了多模态信息处理能力。相比于以往的多模态方法,例如以CLIP为代表的判别式,或以OFA为代表的生成式,新兴的MLLM展现出一些典型的特质:(1)模型大。MLLM通常具有数十亿的参数量,更多的参数量带来更多的潜力;(2)新的训练范式。为了激活巨大参数量的潜力,MLLM采用了多模态预训练、多模态指令微调等新的训练范式。

在这两种特质的加持下,MLLM涌现出一些以往多模态模型所不具备的能力,例如根据图表直接进行数学推理、给定图片进行故事创作、理解网络表情包的深层含义等。近几年里,工业界与学术界均积极投入于多模态大模型的研发工作,使多模态大模型领域持续涌现大量新项目。

图片

图1. 代表性MLLM的时间线

本文作为多模态大语言模型方向的首篇综述,对研究的相关进展进行了梳理和总结,介绍了多模态大语言模型的基础构成和相关概念,涵盖了架构、训练策略、训练数据与评估;并进一步讨论了相关的研究主题,包括多模态大语言模型的能力升级、多模态幻觉、多模态上下文学习、多模态思维链、大语言模型辅助的视觉推理。这些内容将为多模态大语言模型相关研究以及利用多模态大语言模型开展跨学科交叉研究提供有效指南。

内容速览

模型架构

对于多模态输入-文本输出的典型MLLM,其架构一般包括编码器连接器以及LLM。如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如下图所示:

图片

图2. MLLM典型架构示意图

其中,模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成LLM易于理解的形式,即视觉Token。LLM则作为“大脑”综合这些信息进行理解和推理,生成回答。目前,三者的参数量并不等同,以Qwen-VL为例,LLM作为“大脑”参数量为7.7B,约占总参数量的80.2%,视觉编码器次之(1.9B,约占19.7%),而连接器参数量仅有0.08B。

对于视觉编码器而言,增大输入图片的分辨率是提升性能的有效方法。一种方式是直接提升分辨率,这种情况下需要放开视觉编码器进行训练以适应更高的分辨率,如Qwen-VL等。另一种方式是将大分辨率图片切分成多个子图,每个子图以低分辨率送入视觉编码器中,这样可以间接提升输入的分辨率,如SPHINX、Monkey等工作。

对于预训练的LLM,常用的包括LLaMA系列、Qwen系列和InternLM系列等,前者主要支持英文,而后两者中英双语支持得更好。就性能影响而言,加大LLM的参数量可以带来显著的性能增益,如LLaVA-NeXT等工作在7B/13B/34B的LLM上进行实验,发现提升LLM大小可以带来各benchmark上的显著提升,在34B的模型上更涌现出zero-shot的中文能力。除了直接增大LLM参数量,近期火热的MoE架构则提供了更高效实现的可能性,即通过稀疏计算的方式,在不增大实际计算参数量的前提下提高总的模型参数量。

相对前两者来说,连接器的重要性略低。如MM1通过实验发现,连接器的类型不如视觉token数量(决定之后LLM可用的视觉信息)及图片的分辨率(决定视觉编码器的输入信息量)重要。

数据与训练

MLLM的训练大致可以划分为对齐预训练阶段、指令微调阶段和对齐微调阶段。预训练阶段主要通过大量配对数据将图片信息对齐到LLM的表征空间;指令微调阶段则通过多样化的各种任务数据提升模型在下游任务上的性能,以及模型理解和服从指令的能力;对齐微调阶段一般使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。

早期工作主要使用了粗粒度的caption数据用于第一阶段训练,这些数据主要来源于互联网上的图片及其附带文字说明,因此存在噪声多、文本短的特点,容易影响对齐的效果;后来的工作则探索使用更干净、文本内容更丰富的数据做对齐。如ShareGPT4V使用模型生成的文本更长的caption数据做更细粒度的对齐,在一定程度上缓解了对齐不充分的问题,获得了更好的性能,

指令微调数据一方面可以来源于各种任务的数据,如VQA数据、OCR数据等,也可以来源于GPT-4V生成的数据。虽然后者一般能够生成更复杂、更多样化的指令数据,但这种方式也显著地增加了成本。值得一提的是,该阶段的训练中有时还会混合部分纯文本的对话数据,这类数据可以视为正则化的手段,保留LLM原有的能力与内嵌知识。

对齐微调阶段主要使用偏好对数据训练,对齐人类偏好,如模型的回答要具有有用性、可靠性以及符合人类道德等。要收集该类数据,除了较为昂贵的人工标注手段外,近期也有一些工作使用多模态大模型(如GPT-4V) 来进行标注。

其他关键研究课题

除了提升模型的基础能力(如支持的输入/输出形式、性能指标)外,还有一些有意思的问题以及待探索的方向。综述中主要介绍了多模态幻觉、多模态上下文学习、多模态思维链、LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)等。

多模态幻觉研究主要关注模型生成的回答与图片内容不符的问题。由于视觉和文本本质上是异构的信息,充分的对齐是十分困难的。常见的直接将视觉特征映射为token与文本一同送入LLM的方式则可能会加剧问题;且当前常见的直接沿用语言建模的自回归生成模式对于视觉理解不一定是最优的。因此,与多模态幻觉的斗争将会是长期的。

多模态上下文学习技术研究如何通过给予模型以少量的示范/样例,从而提升模型在新任务上的表现;而多模态思维链通过分解复杂问题为更简单的子问题,从而显式地利用中间过程推理获得问题的最终答案。

LLM辅助的视觉推理方法探索如何利用LLM强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。相比于通过端到端训练获得单一模型,这类方法一般关注如何通过免训练的方式扩展和加强LLM的能力,从而构建一个综合性的系统。

小结

多模态大语言模型作为近年来的研究热点具有巨大的潜力和探索空间。针对这一新兴研究领域,本篇综述总结和梳理了多模态大模型的研究进展和关键技术,并对一些重要的相关研究课题进行了探讨。值得说明的是,除了针对多模态大模型本身开展研究外,利用多模态大模型这一强大的工具开展跨学科交叉研究或解决下游任务同样具有巨大的潜力。我们希望该综述可以帮助和启发更多研究者开展多模态大模型相关的研究。