DeepSeek V3.2 / V3.2-Speciale 正式发布:开源阵营的又一次「硬刚闭源」时刻?

我都记不清这是DeepSeek官方今天的多少次开源模型了,只能说每次都给我们一个惊喜。从年初的R1到现在的V3.2版本,只能说DeepSeek无愧是开源界的“源神”称号。

图片


从我写过的文章来看,确实DeepSeek一直稳定在开源界的第一梯队之上

图片


那么这一次,DeepSeek 正式发布了DeepSeek-V3.2和面向极限推理场景的V3.2-Speciale。


在 GPT-5、Gemini 3 接连霸榜的大模型时代,DeepSeek的这个开源模型真的在不断逼近闭源大模型。


推理能力全面提升

这次发布的两个模型,在推理能力上有明显大幅的增强。在Reasoning Capabilities(推理能力)的数据集测试上,和目前最强的Gemini 3 pro效果差不多,有一些甚至达到了SOTA的水准。

图片


比如在AIME 2025(数学推理)上,V3.2-Speciale:96.0%,效果最强。Speciale模型能力在数学推理直接夺第一。


在HMMT 2025(更高难的竞赛数学)的数据上,Speciale 在高难数学上远超所有模型,包括 GPT-5

在Codeforces(编程竞赛 rating)上,V3.2-Speciale拿到了2701的分数,相当于它已经能达到人类世界的国际顶级程序员级别。


从整体的推理能力总结来看:

  • DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。

  • DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。


新版本模型更适合 Agent 用法:思考模型可调用工具

DeepSeek这次更加明确强调:V3.2 是为agent 工具调用而优化的。表现包括:

  • 在“思考—执行”两步之间切换更自然

  • 给出的 action 更干净、更利于自动化

  • 思考链条(CoT)不会疯狂拉长内容

  • Token 成本可控


这一点在实际应用里非常重要:因为大部分公司真正需要的不是“聊天模型”,而是能独立完成任务的 AI agent。


新版本的V3.2 模型不同于过往版本在思考模式下无法调用工具的局限,它是首个将思考融入工具使用的模型,并且同时支持思考模式与非思考模式的工具调用。


在具体的训练当中,DeepSeek使用一种大规模 Agent 训练数据合成方法,构造了大量「难解答,易验证」的强化学习任务(1800+ 环境,85,000+ 复杂指令),大幅提高了模型的泛化能力。

图片


从上面的图来看,DeepSeek-V3.2 模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距。值得说明的是,V3.2 并没有针对这些测试集的工具进行特殊训练,也就是能够广泛适配不同的任务。


官方举了一个例子,使用DeepSeek构建的“旅行助手”能够快速给出具体的旅游攻略出来。

图片




同时,更新的API 更新支持了 DeepSeek-V3.2 思考模式下的工具调用能力。当前在思考模式下,模型能够经过多轮的思考 + 工具调用,最终给出更详尽准确的回答。下图为思考模式下进行工具调用的 API 请求示意图:

图片


这次的DeepSeek v3.2版本,针对思考与工具调用并行的应用场景,DeepSeek提供的API接口方案更加优雅:用户仅需在请求中保留reasoning字段,模型即可基于已有思考内容进行延续推理。


DeepSeek-V3.2重要的技术:DSA

这一次它最主要的是引入了一个新机制DeepSeek Sparse Attention(稀疏注意力,DSA),旨在在处理长上下文(long context)时提升训练与推理效率,同时尽可能保持输出质量不变。

图片


稀疏注意力的思路在很多新一代 Transformer 变体中都在被探索:即不是所有 token 间都做全连接的 self-attention,而是选一些关键 token 或局部连接,从而减少计算复杂度。DeepSeek 在这个版本中尝试了一种“细粒度稀疏”的策略。具体就是用到了两个关键组件:Lightning Indexer和Top-k Token Selection。


Lightning Indexer:给定一个 query token ,它会和之前的 token计算一个轻量的 index score。

图片


它的计算量极小,主要负责快速判断哪些 token 可能相关。


Top-k Token Selection:对每个 query token,indexer 会输出一组分数 I,然后选取 top-k 的 key-value token,丢掉其余的。接下来只在这些 top-k 上计算真正的注意力。


经过两个组件之后,这样复杂度从 O(L^2)降低到O(LK),其中 k<<L


初步体验

Q1:使用SVG画一个思维导图

首先搜索网页,帮我查找一下DeepSeek V3.2有什么特点 然后用SVG画一个思维导图,来介绍一下

图片


能够把最新模型在性能表现、技术创新、训练方法等三个方面刻画出来。基本上效果已经出来了~


Q2:将单词“DeepSeek-V3.2-Exp”反过来写

它是把每一个字符进行拆分,然后再合并结果,答案是对的。

图片


Q3:六边形中弹珠碰撞

请生成一个完整的HTML文件(将HTML、 CSS和JavaScript均合并成一个文件)来模拟一个蓝色小球在顺时针缓慢旋转的正六边形内形成一个文件)来模拟一个彩色小球在顺时针旋转的正六边形内部弹跳的动画,要求如下: - 小球应受重力影响,并在碰到边界时发生反弹-小球与多边形之间的碰撞检测要真实-所有代码应包含在<html>文件内,不要引用外部库或文件-动画要平滑,页面布局适配

图片


很好的模拟小球的重力情况,同时可以把六边形进行加速和减速,弹珠很符合物理世界的规律


Q4:用 Three.js 实现一款“我的世界风格”的3D飞机大战。

试一下最新版本的V3.2在游戏编程上的效果

图片


界面中很好的区分不同的主题。比如前景绿色+蓝色方块代表玩家飞机。红色主体是敌机。背景是绿色网格地面 + 天空蓝背景。


写在最后

如果给这次发布一个总结:DeepSeek V3.2 是 2025 年开源阵营最重要的版本之一。它让开源模型的“推理能力”首次具备了挑战闭源的资格。


V3.2 适合当主力模型,V3.2-Speciale 更像是“极限推理外挂”。


虽然在知识、稳定性、长对话、创作上仍与 GPT-5 与 Gemini 3 有显著差距,但它让行业看到了另一个方向:未来的大模型竞争,不只是算力竞争,

而是:结构 → 推理 → Agent → 控制成本 的系统性竞争。


而这,恰好是开源模型最有机会追上的地方。