最近视觉模型真的卷疯了...
如今,作为国内大模型领域的黑马,DeepSeek 也于几天前宣布推出了 DeepSeek-VL2,并且继续保持开源路线,并在论文中公开了大量技术细节。
DeepSeek-2 在问世之际便备受好评。其在性能不输于 Qwen1.5 和 LLaMA3 的同时,大幅降低了模型参数和训练成本,引发了国内 AI 届的降价狂潮,DeepSeek 也被戏称为 AI 届的“拼多多”。
废话不多说,来一起康康!
论文标题:
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
论文链接:
https://github.com/deepseek-ai/DeepSeek-VL2/blob/main/DeepSeek_VL2_paper.pdf
代码链接:
https://github.com/deepseek-ai/DeepSeek-VL2
家族介绍
DeepSeek-VL2 系列共包括 3 个模型:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别拥有 1.0B、2.8B 和 4.5B 激活参数。DeepSeek-VL2 在参数量仅有约一半的情况下,超越了现有的视觉语言模型 Qwen2-VL 和 InternVL2,实现了竞争性或最先进的性能。
技术提升
相比于初代 DeepSeek-VL,DeepSeek-VL2 主要在以下三点做了改进:
(1)通过动态的高分辨率视觉编码策略,增强了视觉理解
DeepSeek-VL2 改进了 DeepSeek-VL 的混合视觉编码器,引入了一种动态平铺视觉编码策略,可以有效处理不同纵横比的高分辨率图像。相比于 DeepSeek-VL 只能在两个固定分辨率(384×384 和 1024×1024)下从图像中提取特征,DeepSeek-VL2 避免了固定大小编码器的限制,在视觉定位、文档/表格/图表分析和详细特征提取等需要超高分辨率的任务中表现出色。
通过动态切片平铺方法,DeepSeek-VL2 系统将高分辨率输入分割成局部平铺,通过共享的视觉变换器处理每个平铺,并在语言模型中无缝集成提取的特征。这种设计保留了视觉变换器的局部注意力优势,实现了丰富的特征提取,避免了增加图像分辨率相关的二次计算扩展,大幅提升计算效率。
(2)通过改进 MOE 机制,提升训练和推理效率
DeepSeek-VL2 语言模型基于自研模型 DeepSeekMoE。MoE(Mixture-of-Experts)是一种在扩大模型参数时管理计算成本的的架构。然而传统的 MoE 架构需要尽量保证每个专家获得不重叠且集中的知识,即 top-K 问题。为此,DeepSeekMoE 提出涉及四个主要策略:
1.细粒度专家划分
在专家数量受限的情况下,分配给特定专家的 token 更有可能涵盖多种类型的知识。如果每个 token 可以被分配到更多的专家,那么不同类型的知识就有潜力被分解并在不同的专家中分别学习。在这种情况下,每个专家仍然可以保持高水平的专家专业化,有助于在专家之间实现更集中的知识分布。
DeepSeekMoE 通过将 FFN(前馈网络)中间隐藏维度减少到原来的 1/m 倍,将每个专家 FFN 分割成 m 个更小的专家。由于每个专家变得更小,相应地增加激活专家的数量到 m 倍,以保持相同的计算成本,由此更灵活地组合激活的专家。
2.共享专家隔离
使用传统的路由策略,分配给不同专家的 token 可能需要一些共同的知识或信息。因此,多个专家可能会在各自的参数中汇聚以获取共享知识,从而导致专家参数的冗余。然而,如果有专门的共享专家致力于捕捉和整合不同上下文中的共同知识,其他路由专家之间的参数冗余将会减少。这种冗余的减少将有助于构建一个参数效率更高、专家更专业化的模型。
3.动态损失均衡
在 MoE 的 top-K 路由决策之前,动态损失均衡(Loss-Free Balancing)会首先对原始路由分数设置专家级别的偏置,以产生有偏的路由分数,这些分数决定了每个训练 token 的实际路由目标。这些专家级别的偏置会根据最近训练 token 上观察到的专家负载进行更新,其中负载重的专家的偏置会被降低,而负载轻的专家的偏置会被提升。通过这种动态更新策略,动态损失均衡确保有偏的路由分数能得到平衡的路由结果。与辅助损失控制的负载平衡策略相比,Loss-Free Balancing 不引入会干扰主要语言建模目标的预设梯度,因此其训练过程更加无噪声且友好。
4.多头潜在注意力机制
对于语言组件,DeepSeekMoE 模型采用了多头潜在注意力(Multi-head Latent Attention,MLA)机制。MLA 通过将 Key-Value 缓存压缩成潜在向量,显著降低了计算成本,从而实现了更快的推理和更高的吞吐量。
(3)数据扩展与训练微调
DeepSeek-VL2 极大地增强了视觉-语言训练数据的质量、数量和多样性。其比一代 DeepSeek-VL 多一倍优质训练数据,并且引入梗图理解、视觉定位、视觉故事生成等新能力。全面的数据集使得模型在广泛的任务上能够更好地泛化和表现。
在训练微调阶段,DeepSeek-VL2 通过监督式微调增强预训练模型的指令遵循和对话能力。使用 DeepSeek 的内部视觉-语言 SFT(Supervised Fine-Tuning) 数据,在只监督答案和特殊 token 的情况下优化所有参数,同时掩蔽系统和用户提示。同时,DeepSeek-VL2 将多模态数据与纯文本对话数据结合起来,加强对话理解,确保了在密集图像描述、视觉转代码等视觉-语言任务中的强大性能。
结果展示
DeepSeek-VL2 分别在 OCR、多模态对话、视觉定位三个领域进行了测试。与 InternVL2、DeepSeek-VL、Qwen2-VL 等 VLM 模型相比中,DeepSeek-VL2 通过 MoE 架构在激活参数更少的情况下实现了相似或更好的性能。
通用视觉问题回答
得益于新视觉-语言预训练数据集和多样化的 SFT 数据,DeepSeek-VL2 在通用视觉问题回答方面展现出明显进步。DeepSeek-VL2 模型在密集图像描述方面表现出色,能够识别常见的地标、一般视觉知识和中英文的丰富文本。
此外,DeepSeek-VL2 在图表理解方面也表现良好,能够准确识别属性。在中文领域,DeepSeek-VL2 能够描述正确的背景并用有意义的文化背景解释幽默。
多图像对话
DeepSeek-VL2 能够分析多个图像之间的关联和差异,同时通过整合多个图像的内容进行简单的推理。它能够根据几张图像编写一个创意故事,也可以可以根据食材的图像编制一道菜谱。
视觉定位
视觉定位是 DeepSeek-VL2 新增的能力。有趣的是,尽管训练集中的大多数图像来自自然场景,并且指代表达式是物体类别名称或对物体的具体描述,DeepSeek-VL2 模型能够泛化到其他场景(如模因和动漫),并且有能力识别某些名人和抽象概念。DeepSeek-VL2 还具有上下文视觉定位能力。给定第一张图像,其中物体通过视觉提示被引用,模型能够在第二张图像中定位到同一类别的物体。
此外,DeepSeek-VL2 模型展现出了涌现能力。给定一张图像和文本描述,模型能够结合图像和文本中的信息来识别第二张图像中对应的物体。有了特殊标记 <|grounding|> ,DeepSeek-VL2 可以发挥其定位对话的能力,其中它能够在其回应中准确地引用关键物体的位置,这使得模型能够更好地与现实世界互动,从而在体现 AI 和计算机/手机代理等领域创造更多机会,发挥更大的作用。
全文总结
DeepSeek-VL2 作为一个基于 MoE 的视觉语言模型,其总共有 3B、16B 和 27B 参数规模的版本,对应的激活参数为 1.0B、2.8B 和 4.5B,可以分别部署在具有 10GB、40GB 和 80GB 内存的单个 GPU 上。DeepSeek-VL2 改进了 DeepSeek-VL 的 MoE 基础模型,并且采用了动态平铺视觉编码策略,有效地处理各种纵横比的高分辨率图像。
作为国内大模型届的新势力,DeepSeek 背后的势力幻方量化是国内最大的量化公司之一。幻方量化拥有超过 1 万枚 A100GPU,且于 2019 年就开始自研深度学习训练平台,2023 年 5 月成立 Deep Seek 作为独立训练大模型公司。关于幻方的成长奥秘,幻方内部将之归结为“选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。
Deep Seek 的目标,不只是复刻 ChatGPT,还要去研究和揭秘通用人工智能的更多未知之谜。