DeepSeek灰度测试识图模式，多模态模型正在路上？

深网

2026-04-29 19:31发布于山东腾讯新闻《深网》栏目官方账号

问AI · DeepSeek为何在V4后加速多模态灰度测试？

图源：视觉中国

文丨雅萱

编辑丨叶锦言

出品丨深网·腾讯新闻小满工作室

继V4预览版正式推出后，DeepSeek或将迎来小迭代。

4月29日下午，DeepSeek多模态团队负责人陈小康在X平台发布了多条动态，一条是“Now, we see you”，配图中两只DeepSeek鲸鱼logo，一只仍戴着海盗眼罩，另一只已经睁开了眼睛。随后，其转发自己的这条推文称，快来体验我们天才多模态同事的杰出成果！小鲸鱼现在能看见东西了（处于灰度测试阶段）。

公开资料显示，陈小康目前在DeepSeek负责多模态预训练与后训练，统领 DeepSeek大模型的多模态能力建设。

就在陈小康在X上持续释放信息的同时，DeepSeek正对全新的“识图模式”进行灰度测试。从界面上看，这一模式与 “快速模式” 和 “专家模式” 并列，并标注“图片理解功能内测中”。

一般而言，灰度测试这种小范围技术验证，主要用以测试用户需求、识别准确率、响应速度等实际指标。但DeepSeek当前灰度测试的“识图模式”，却被行业普遍看成其要从纯文本向多模态过渡的信号。

此前DeepSeek-V4公布Flash版和Pro版主要是纯文本大模型，对比国际上顶端的大模型（比如GPT-5.4、Gemini 3.1 Pro等）支持文本、图像、视频、音频和 PDF的统一输入与处理等，已经支持1M（一百万）上下文的DeepSeek- V4被寄予更高的期待。

毕竟，在Agent已成为AI核心竞争焦点的当下，多模态能力已逐步从顶级模型的“加分项”演变为“准入门槛”。

DeepSeek在V4技术报告的 “未来方向”中明确写道，“我们已经注意到Agentic重要性和实用价值，正致力于将多模态能力整合到我们的模型中”（Furthermore, we recognize the importance and practical value of long-horizon, multi-round agentic tasks, and will continue to iterate and explore in this direction. We are also working on incorporating multimodal capabilities to our models.）

不过，从其“致力于将多模态能力整合到我们的模型中”的表述推测，DeepSeek或许暂时不会推出一个全新的原生多模态基座模型，其灰度测试的“识图模式”更像是基于 V4 纯文本主干的模块化增强。

对于大模型能力迭代，DeepSeek一直都有自己的节奏，正如DeepSeek在发布V4预览版时在公号结尾写的那句话——“不诱于誉，不恐于诽，率道而行，端然正己。”

未来，随着“识图模式”从灰度走向全量，它或将进一步探索更原生的多模态架构，但其开源、性价比、务实的技术底色不会变。

DeepSeek在V4技术报告结尾明确写道：“我们致力于开发更优的数据策选与合成策略，在日益广泛的场景和任务中，持续增强模型的智能水平、鲁棒性与实际可用性。”（Finally, we are committed to developing better data curation and synthesis strategies to consistently enhance model intelligence, robustness, and practical usability across an increasingly broad range of scenarios and tasks.）