今天,DeepSeek-V4 的正式登场,让今天的科技圈热闹得宛如过年,风头甚至盖过了隔壁的车展。LLM 处理百万级上下文的新时代,就此开启。
在 V4 发布之前,市场上各种声音不断,在这种氛围下,DeepSeek 微信推文中的一句话打动了许多人:「不诱于誉,不恐于诽,率道而行,端然正己。」DeepSeek 也正沿着自己的道路坚定前行。比起外界期待的“石破天惊”式产品体验,DeepSeek 更愿意按自己的节奏,把重心扎在架构与工程上。
此次,DeepSeek 发布 包括 DeepSeek-V4-Pro(1.6T 参数,总激活 49B)与 DeepSeek-V4-Flash(284B 参数,总激活 13B)预览版,模型都是基于混合专家(MoE)架构的语言模型,均支持百万级上下文长度。
在技术报告中,DeepSeek 说的很明确, DeepSeek-V4 系列就是为了尝试从架构层面突破超长上下文的效率瓶颈。团队这么说:“架构创新让 DeepSeek-V4 系列在超长序列效率上实现了质的飞跃。百万级 token 上下文不再是瓶颈,这标志着下一代 LLM 真正迈入了百万上下文时代。我们相信,高效长序列处理将成为测试时扩展的下一个前沿。”
性能上,DeepSeek-V4-Pro 在多项能力上较前代显著提升:
在 Agent 能力上,V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平,其内部反馈显示,其体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍低于 Opus 4.6 思考模式。
在世界知识能力上,V4-Pro 显著领先主流开源模型,仅略低于 Gemini-Pro-3.1。
在推理能力上,模型在数学、STEM 与竞赛级代码任务中表现突出,整体超越所有已公开评测的开源模型,并接近顶级闭源模型水平。
在 Agent 能力上,DeepSeek-V4 针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化。
此次,DeepSeek-V4 的架构与工程创新只有一个目标:在实现百万级长上下文的同时,大幅降低计算和显存开销。从今天起,1M 上下文将是 DeepSeek 所有官方服务的标配。
具体来看 DeepSeek-V4 架构和工程创新,首先在模型架构上,V4 延续了 DeepSeek-V3 的 Transformer 框架与多词元预测(MTP)模块的基础上引入了多项关键创新:
设计了一种混合注意力机制,结合压缩稀疏注意力(CSA)与重压缩注意力(HCA),用于提升超长上下文效率:CSA 通过沿序列维度压缩 KV cache,并结合 DeepSeek 稀疏注意力提升计算效率;HCA 则采用更强压缩策略,同时保留密集注意力路径,以平衡效率与表达能力。
在模型结构增强方面,引入流形约束超连接(mHC),用于强化传统残差连接的信息传递能力。同时,将 Muon 优化器应用于训练过程,以提升收敛速度与稳定性。
其次在系统与工程层面,V4 系列同步进行了多项基础设施优化。包括:
为 MoE 设计全融合计算内核,统一计算、通信与内存访问路径;
引入 TileLang 以平衡开发效率与运行性能;构建确定性内核库,实现训练与推理的位级可复现性。
在效率优化方面,引入 FP4 量化感知训练,用于 MoE 专家权重与 QK 路径,降低显存与计算开销。
在训练框架中扩展自动微分系统,引入张量级 checkpoint,实现更细粒度的重计算控制,并结合混合 ZeRO 策略提升整体训练效率,使其可适配 Muon 优化器与融合内核的组合,以及引入两阶段上下文并行机制以优化压缩注意力处理流程;
在推理侧,则设计异构 KV cache 结构,并结合磁盘存储与共享前缀复用机制,以降低长上下文推理成本并提升复用效率。
目前,DeepSeek API 已同步上线 V4-Pro 与 V4-Flash。有开发者提到,虽然 DeepSeek 引入了全新的注意力机制,但实际价格比想象中要贵一些。不过 DeepSeek 在文章提到,“受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。”
关于下一步的技术方向,DeepSeek 在技术报告中提到,将重点探索结构精简,在保持性能的前提下降低系统复杂度,从而提升训练与推理效率。同时,模型稀疏性被视为下一阶段的重要扩展方向。
此外,团队认识到长程任务、多轮智能体任务的重大价值,将持续在此方向迭代。多模态能力的融合也在推进之中。