2024 年 12 月真的太疯狂了,首先是闭源的视觉模型接连重磅发布——
然后,笔者发现不仅闭源模型大爆发,就连开源的视觉 LLM 这个月也是扎堆爆发了。
根据笔者统计,12 月份,已经有来自阿里、腾讯混元、谷歌、Meta 等大厂的 5 个重磅视觉模型开源发布了:
“大模型能够通过图像识别乐谱和人类情绪了”。
“利用模型,直接可以生成高清视频,而且是还会带配音的!”。
“模型能够处理与理解的视频达到 20 分钟以上了”。
“可以采用参考图像,更精确地控制图生成用户想要的图像和视频了”。
划重点,它们都对你开源了!这是不是"泼天富贵"齐刷刷地来了!
现在将近期主要发布的开源大模型列举如下:
下面让我们一起踏上这场视觉-语言模型的奇妙之旅吧!别急,跟着我的节奏,慢慢揭开这些神奇模型的神秘面纱。对于上述模型的进一步详细了解,不要着急,请根据小编的节奏慢慢来了解吧。
一、PaliGemma 2
PaliGemma 2 这个让人兴奋的新一代视觉语言模型!它不仅是 PaliGemma 家族的新成员,更是 Gemma 2 模型能力的延伸。这个模型家族的灵感来源于 PaLI-3,并且基于开放组件,比如 SigLIP 视觉模型和 Gemma 2 语言模型。PaliGemma 2 能够接收图像和文本作为输入,并生成文本作为输出,支持多种语言。它为一系列视觉语言任务提供了行业领先的微调性能,比如图像和短视频描述、视觉问题回答、文本阅读、目标检测和目标分割。
论文 :
https://arxiv.org/pdf/2412.03555
huggingface 模型库:https://huggingface.co/collections/google/paligemma-2
🍀模型亮点:
PaliGemma 2 升级了语言模型组件,提供 3 种大小(3B、10B、28B)的参数版本和 3 种分辨率为 224、448 和 896 版本。 采用与 PaliGemma 相同的 3 阶段训练方法,PaliGemma 2 在 30 多个任务上表现优于 PaliGemma,尤其在较大模型尺寸上有显著提升。 探索新任务,包括文本检测与识别、表格结构识别、分子结构识别、光学乐谱识别、长文本生成、空间推理和放射学报告生成,PaliGemma 2 在许多任务上取得了最先进的结果。 对 PaliGemma 2 的低精度版本进行基准测试,适用于 CPU 上的设备部署。
🍀模型结构:
PaliGemma 2 是对原有 PaliGemma 的升级,在 Gemma 2 系列大语言模型基础上,结合了 SigLIP-So400m 视觉编码器,以提升视觉-语言模型(VLM)的性能。
上图所示, PaliGemma 2 的结构主要包括 SigLIP-So400m 视觉编码器和 Gemma 2 语言模型。
SigLIP-So400m 视觉编码器:该编码器负责将图像信息转化成特征表示。这些视觉表示随后与文本提示结合,输入到 Gemma 2 语言模型中 ;SigLIP-400m 图像编 码 器 能够处 理 224、448 和 896 像素图 像 ,分别产生 256、1024 和 4096 个 token。 Gemma 2 语言模型:PaliGemma 2 基于 Gemma 2 系列的语言模型,涵盖从 2B 到 27B 的不同规模的模型。图像 token 通过线性投影之后,与输入文本连接起来该模型通过自回归采样生成预测。
🍀分辨率分阶段训练:
该模型在 224px²、448px² 和 896px² 三种分辨率下进行多阶段训练,增强了模型的知识广度和迁移能力。
阶段 1:使用 10 亿个多模态任务样本,图像分辨率 224px², 联合训练 SigLIP-So400m 和 Gemma 2; 阶段 2:先在 448px² 像素分辨率下对 5000 万个样本进行训练,再在 896px² 像素分辨率下训练 1000 万个样本。此阶段主要在重点任务上调权重,增加输出序列的长度,以促进长视觉文本序列的 OCR 等任务的学习。 阶段 3:对阶段 1 或 2 的 checkpoint 进行目标任务微调,涵盖多个学术基准和新应用(文档任务、长标题生成、医学图像理解)
🍀迁移任务扩展
PaliGemma 2 扩展了迁移任务的数量和范围,包括:
表格结构识别 分子结构识别 乐谱识别 长文本细粒度描述的生成 视觉空间推理 放射图像报告的生成
二、InternVL 2_5
OpenGVLab 发布 InternVL2.5,这是一个先进的多模态大型语言模型系列,参数覆盖从 1B 到 78B。其中这周发出的 InternVL2_5-78B 是首个在 MMMU 基准测试上超过 70% 准确率的开源多模态大型语言模型,匹配了像 GPT-4o 这样的领先闭源商业模型的性能。
Huggingface 模型库:
https://huggingface.co/OpenGVLab/InternVL2_5-78B
论文:
https://arxiv.org/abs/2412.05271v1
Code:
https://github.com/OpenGVLab/InternVLModel
Demo:
https://huggingface.co/sp
主要贡献点
InternVL 2.5 为多模态人工智能系统的开发和应用提供了一个强大的工具,并鼓励在该领域的进一步研究。 研究多模态语言模型中的不同组件(如视觉编码器、语言模型、数据集大小和推理时间)对性能的影响。 在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理方面可与 gpt-4o 和 Claude-3.5-Sonnet 等领先的商业模型相媲美。 这是第一个在 MMMU 验证集上超过 70% 的开源多模态语言模型,具有强大的扩展潜力。
模型结构及训练策略:
上图所示,InternVL 2.5 保留了与其前身 InternVL 1.5 和 2.0 相同的模型架构,遵循“ViT MLP LLM”范式。在这个新版本中,使用随机初始化的 MLP Projector, 将新训练的 InternViT 与各种预训练的 LLMs(包括 InternLM 2.5 和 Qwen 2.5)集成在一起。
与前一版本相同的是使用了像素解卷积操作,将视觉 token 的数量减少到原始数量的 1/4。此外,还采用了与 InternVL 1.5 类似的动态分辨率策略,将图像分割成 448×448 像素分块。InternVL 2.0 开始,支持对多张图像和视频数据的处理。InternVL 2.5 采用的训练策略包括:
动态处理高分辨率多模态数据:扩展了动态高分辨率训练方法,增强了其处理多图像和视频数据集的能力。 单模型训练步骤 :包括 MLP 预热、ViT 增量学习和完整的模型指令调优。 渐进式扩展策略:首先使用较小的 LLM(例如 20B)进行训练,以优化基础视觉能力和跨模态对齐,然后再将视觉编码器转移到较大的 LLMs(例如 72B)。 训练增强方式:随机 JPEG 压缩和损失重计。
三、Qwen2-VL
Qwen2 VL 这是我们 Qwen VL 型号的最新迭代,代表了近一年的创新。这周新发布的是 Qwen2-VL-72B, 是一个没有指令调优的预训练模型。
paper:
https://arxiv.org/pdf/2409.12191
Huggineface 库:
https://huggingface.co/Qwen/Qwen2-VL-72B
Code:
https://github.com/QwenLM/Qwen2-VL
🌺 模型亮点:
对各种分辨率和比率的图像的理解:Qwen2 VL 在视觉理解基准上达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。 理解 20 分钟以上的视频:Qwen2 VL 可以理解超过 20 分钟的视频,用于高质量的视频问答、对话、内容创作等。 可以操作手机、机器人等:Qwen2 VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。 多语言支持:为了服务全球用户,除了英语和中文,Qwen2 VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
🌺 模型架构更新:
动态分辨率:与以前不同,Qwen2 VL 可以处理任意图像分辨率,将它们映射到动态数量的视觉 token 中,提供更人性化的视觉处理体验。
多模态旋转位置嵌入(M-ROPE):将位置嵌入分解为代表时间和空间(高度和宽度)信息的三个部分,以捕获 1D 文本、2D 视觉和 3D 视频位置信息,增强其多模态处理能力。
四、HunyuanVideo
HunyuanVideo 是腾讯新推出的、可以免费使用的文本生成视频的模型,它生成视频的能力跟那些顶尖的、不公开的模型一样厉害,甚至有时候做得更好。这款模型拥有 130 亿参数,能进行自然转场和镜头切换。其视频生成效果在远景和动作流畅度上表现出色,尤其在人文场景、人造场所、人物及多主体组合方面有明显优势,同时在物品和动植物方面也表现不错。目前版本分辨率为 720P,未来可能推出 1080P、4K、8K 版本,并考虑增加图像生成视频和视频自动配乐功能。
paper:
https://arxiv.org/pdf/2412.03603
code:
https://github.com/Tencent/HunyuanVideo
🔥模型的贡献点:
开源性的模型:HunyuanVideo 是一个新颖的开源视频基础模型,其性能与领先的闭源模型相当,甚至在某些方面超越了它们。有助于缩小行业与公众社区之间在视频生成能力上的差距。
综合框架:该模型整合了数据策划、先进的架构设计、渐进式模型扩展和训练,旨在促进大规模模型的训练和推理。
大规模参数:HunyuanVideo 训练了一个超过 130 亿参数的视频生成模型,使其成为所有开源模型中最大的。
高视觉质量和动态表现:通过一系列针对性的设计,HunyuanVideo 确保了生成视频的高视觉质量、运动动态、文本与视频的对齐以及先进的拍摄技术。
视频-图像联合训练:通过视频-图像联合训练策略,HunyuanVideo 有效利用了图像数据,增强了模型的泛化能力,并防止了因视频和图像数据分布差异而导致的灾难性遗忘。
🔥HunyuanVideo 的架构
HunyuanVideo 就像是一个魔法盒子,它用一种特别的方法来制作视频。这个魔法盒子里有一个叫做 3D VAE 的压缩器,它能把视频中的时间和空间信息压缩成更小的数据。当有人给这个盒子一个文字提示,比如“一只小狗在草地上奔跑”,这个提示会通过一个大语言模型转换成一种特殊的信号,然后告诉这个魔法盒子要做什么。
接下来,这个魔法盒子会用这个信号作为指导,从一团混乱的噪声中一步步清理出秩序,最终得到一个代表视频的神秘代码。这个神秘代码就像是视频的蓝图,但是它还在一个隐藏的空间里,我们看不见。
最后,当需要把视频做出来给大家看的时候,魔法盒子会用一个 3D VAE 解码器,把那个隐藏的神秘代码转换成一个真正的视频,这样大家就可以看到小狗在草地上奔跑的画面了。简单来说,HunyuanVideo 就是一个能够根据文字提示制作视频的神奇工具。
🔥模型的特点
🎉 统一的图视频生成架构
HunyuanVideo 采用了 Transformer 和 Full Attention 的设计用于视频生成。具体来说,使用了一个“双流到单流”的混合模型用于视频生成。在双流阶段,视频和文本 token 通过并行的 Transformer Block 独立处理,使得每个模态可以学习适合自己的调制机制而不会相互干扰。在单流阶段,将视频和文本 token 连接起来并将它们输入到后续的 Transformer Block 中进行有效的多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互,增强了整体模型性能。
🎉MLLM 文本编码器
过去的视频生成模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器,其中 CLIP 使用 Transformer Encoder,T5 使用 Encoder-Decoder 结构。HunyuanVideo 使用了一个预训练的 Multimodal Large Language Model (MLLM) 作为文本编码器,它具有以下优势:
与 T5 相比,MLLM 基于图文数据指令微调后在特征空间中具有更好的图像-文本对齐能力,这减轻了扩散模型中的图文对齐的难度; 与 CLIP 相比,MLLM 在图像的细节描述和复杂推理方面表现出更强的能力; MLLM 可以通过遵循系统指令实现零样本生成,帮助文本特征更多地关注关键信息。
由于 MLLM 是基于 Causal Attention 的,而 T5-XXL 使用了 Bidirectional Attention 为扩散模型提供更好的文本引导。因此,引入了一个额外的 token 优化器来增强文本特征。
🎉3D VAE
该模型中的 VAE 采用了 CausalConv3D 作为 HunyuanVideo 的编码器和解码器,用于压缩视频的时间维度和空间维度,其中时间维度压缩 4 倍,空间维度压缩 8 倍,压缩为 16 channels。这样可以显著减少后续 Transformer 模型的 token 数量,使得能够在原始分辨率和帧率下训练视频生成模型。
🎉Prompt 改写
为了解决用户输入文本提示的多样性和不一致性的困难,通过微调 Hunyuan-Large model 模型作为 prompt 改写模型,将用户输入的提示词改写为更适合模型偏好的写法。
提供了两个改写模式:正常模式和导演模式。正常模式旨在增强视频生成模型对用户意图的理解,从而更准确地解释提供的指令。导演模式增强了诸如构图、光照和摄像机移动等方面的描述,倾向于生成视觉质量更高的视频。
五、OminiControl
OminiControl 是一种高效且通用的框架,旨在将参考图像集成到预训练的 Diffusion Transformer(DiT)模型中。其核心思想是通过参数重用机制,使 DiT 利用自身作为强大的基础架构来编码参考图像,并通过灵活的多模态注意力机制进行处理。这种方法仅需增加约 0.1% 的额外参数,就能有效整合参考图像,并且能够统一处理多种有参考图像的生成任务。
Paper:
https://arxiv.org/html/2411.15098v2
Code:
https://github.com/Yuanshi9815/OminiControl
Demo:
https://huggingface.co/spaces/Yuanshi/OminiControl
🌞主要特点:
参数重用机制:通过参数重用机制,仅增加约 0.1% 的额外参数,有效整合图像条件,并且能够统一处理多种图像条件任务。 多任务处理能力:该框架能够统一处理多种图像条件任务,包括基于主题的生成和空间对齐条件(如边缘、深度等)。 自生成训练数据:通过使用 DiT 自身生成的图像进行训练,使 OminiControl 在主题驱动生成方面表现出色。
💐 应用举例
主题驱动的生成 空间对齐
上图展示了 OminiControl 在两种生成任务上的结果:主题驱动的生成任务和空间对齐任务。上方的部分展示了在主题驱动生成任务中,模型如何根据输入的文本描述和参考图像生成新的图像,而下方则展示了在空间对齐任务中,模型如何根据特定的条件(如边缘图、深度图等)生成与之对应的图像。
红框内的小图像表示了参考图像,这些参考在生成过程中起着至关重要的作用。它们为模型提供了必要的上下文信息,使得生成的图像能够更好地符合用户的期望。例如,在主题驱动生成任务中,输入可能是一个特定的对象图像和相关的文本描述,模型需要根据这些信息生成新的图像,同时保持对象的特征和风格。在空间对齐任务中,输入参考图如边缘图或深度图则帮助模型理解图像的结构和内容,从而生成更为准确和一致的图像。
结束语
本月真是视觉 LLM 开源大爆炸的一个月。期待 2025 年,在视觉开源模型和闭源模型的加持下,多模态 AI 应用全面爆发!