图源:视觉中国
文丨雅萱
编辑丨叶锦言
出品丨深网·腾讯新闻小满工作室
继V4预览版正式推出后,DeepSeek或将迎来小迭代。
4月29日下午,DeepSeek多模态团队负责人陈小康在X平台发布了多条动态,一条是“Now, we see you”,配图中两只DeepSeek鲸鱼logo,一只仍戴着海盗眼罩,另一只已经睁开了眼睛。随后,其转发自己的这条推文称,快来体验我们天才多模态同事的杰出成果!小鲸鱼现在能看见东西了(处于灰度测试阶段)。
公开资料显示,陈小康目前在DeepSeek负责多模态预训练与后训练,统领 DeepSeek大模型的多模态能力建设。
就在陈小康在X上持续释放信息的同时,DeepSeek正对全新的“识图模式”进行灰度测试。从界面上看,这一模式与 “快速模式” 和 “专家模式” 并列,并标注“图片理解功能内测中”。
一般而言,灰度测试这种小范围技术验证,主要用以测试用户需求、识别准确率、响应速度等实际指标。但DeepSeek当前灰度测试的“识图模式”,却被行业普遍看成其要从纯文本向多模态过渡的信号。
此前DeepSeek-V4公布Flash版和Pro版主要是纯文本大模型,对比国际上顶端的大模型(比如GPT-5.4、Gemini 3.1 Pro等)支持文本、图像、视频、音频和 PDF的统一输入与处理等,已经支持1M(一百万)上下文的DeepSeek- V4被寄予更高的期待。
毕竟,在Agent已成为AI核心竞争焦点的当下,多模态能力已逐步从顶级模型的“加分项”演变为“准入门槛”。
DeepSeek在V4技术报告的 “未来方向”中明确写道,“我们已经注意到Agentic重要性和实用价值,正致力于将多模态能力整合到我们的模型中”(Furthermore, we recognize the importance and practical value of long-horizon, multi-round agentic tasks, and will continue to iterate and explore in this direction. We are also working on incorporating multimodal capabilities to our models.)
不过,从其“致力于将多模态能力整合到我们的模型中”的表述推测,DeepSeek或许暂时不会推出一个全新的原生多模态基座模型,其灰度测试的“识图模式”更像是基于 V4 纯文本主干的模块化增强。
对于大模型能力迭代,DeepSeek一直都有自己的节奏,正如DeepSeek在发布V4预览版时在公号结尾写的那句话——“不诱于誉,不恐于诽,率道而行,端然正己。”
未来,随着“识图模式”从灰度走向全量,它或将进一步探索更原生的多模态架构,但其开源、性价比、务实的技术底色不会变。
DeepSeek在V4技术报告结尾明确写道:“我们致力于开发更优的数据策选与合成策略,在日益广泛的场景和任务中,持续增强模型的智能水平、鲁棒性与实际可用性。”(Finally, we are committed to developing better data curation and synthesis strategies to consistently enhance model intelligence, robustness, and practical usability across an increasingly broad range of scenarios and tasks.)