DeepSeek 的产品发布策略一项是低调而沉默的。
甚至此次深夜的发布,DeepSeek 从 V3 升级至 DeepSeek-V3-0324 这样重大的迭代,DeepSeek 官方都未在 X 平台发布任何官方推文。
但是,这款模型在各种数学和编程上的专项任务突破却又引起全网一片热论,在 Hugging Face 上,短短十几个小时内就已然获得 700 赞。
甚至有 X 网友@JeffreyJonah5 评论称:「它已是最好的”非推理“模型。」
因为,它的性能甚至要直追几乎是 AI 编程模型唯一可用的 Claude 3.7 Sonnet。
而且,它还是开源的(Hugging Face 开源链接[1]),很难想象它后续在开源开发社群会产生怎样的影响力。
这回 DeepSeek-V3 的更新暂未推出模型卡,无法从 DeepSeek 官方层面一窥详细模型细节。
但是,各大 IDE 厂商作为部署最快的人,自然是进行了最速测评。
我这里整理了下 DeepSeek-V3-0324 相较于前一版本的关键改进,5 大核心优势:
DeepSeek-V3-0324 采用专家混合(MoE)架构,拥有 685B 参数;
专家数量增加 60%,从 160 个增至 256 个;
前端编码能力增强;
使用 FP8 训练将计算效率提高一倍;
针对数学和推理的训练后优化。
模型专家数量的提升,表明 DeepSeek-V3-0324 在专家混合(MoE)架构下的任务分工更加精细。
这种改进增强了模型对多样化任务的处理能力,尤其是在需要高度专业化的场景中表现将更为惊人。
最值得注意的一点是:DeepSeek-V3-0324 采用 FP8 混合精度训练,计算效率直接翻倍了。
在模型迭代更新放慢的今年年初,这一资源调优简直又给本地部署者打了一剂强心针。
在模型迭代更新节奏放缓的 2025 年初,再度给了基础模型研究者方向 :AI GPU 很重要,但调优说不定更重要。对于数学和推理上的训练优化,就很直观了。
首先,一位网友使用 DeepSeek-V3-0324 进行水分子模拟,创建一个互动模拟,展示水分子形成和断裂氢键的过程,并且显示温度滑块。
来源:X 网友@pandeyparul[2]
然后,最经典的 AI 编码能力测试当属「旋转六边形弹球」,这一测试的最大目的是看大模型所生成的代码能否显示出重力和摩擦对球的影响,能否让弹球真实地从旋转的墙壁上反弹,从而侧面印证大模型的代码能力。
DeepSeek-V3-0324 一次性地完成了这个测试,并且附带了例如「球重置」、「随机化」和「旋转速度」等功能,用户只需通过滑块来调整参数。
当六边形旋转速度极高时,弹球对于物理法则的遵循也并无出现问题。
来源:X 网友@teortaxesTex[3]
而下面这个视频是之前 o3-mini 与 DeepSeek R1 在弹球测试中的表现对比。
很明显,o3-mini 几乎干碎了 DeepSeek R1。
来源:@flavioAd[4]
除了代码与数学能力的显著提升,DeepSeek-V3-0324 在创意性和审美上也得到了大幅加强。
例如下面这幅海报,左侧为 Grok 生成的 html 文件,右侧则为 DeepSeek-V3-0324 生成。
从美观度上讲,这回的DeepSeek-V3-0324确实得到了质的改变。
来源:X 网友@Xsir01[6]
此外,DeepSeek-V3-0324 对自己的审美要求较高,例如一位网友要求它改进 http://aider.chat[7] 的主页。它建议将表情符号升级为一些更简洁的 SVG 图标(如右图)。
来源:X 网友@paulgauthier[8]
不仅如此,DeepSeek-V3-0324 在代码编程能力上的提升非常显著,特别是在前端开发场景中的表现。
这几个月,AI 编程的潜力逐渐面向大众崭露头角。
当你调用一个代码能力不强的模型,你可能需要一直 Roll,但是 DeepSeek-V3-0324 在处理这些前端任务时,已经能够提供更高效、更精准的代码生成了。
例如下面这个拥有平滑过渡动画的天气卡片。
来源:X 网友@bulletflyx[9]
2024 年年末,DeepSeek V3 刚发布其论文时,这一家来自中国的基础模型公司发布的开源模型,超越了当时在各项任务表现最好的两个闭源模型 GPT-4o 和 Claude-3.5-Sonnet,在代码和数学基准测试中也表现极其出色。
使它能够迅速火爆全网的最重要因素是 Deepseek V3 的训练成本不到 600 万美元,与 OpenAI 和 Anthropic 等公司为实现相同性能所花费的资金相比,实在是便宜得离谱。
这回,DeepSeek 仍在「便宜但好用」上,下足了功夫。
首先是模型架构的优化调整:
DeepSeek-V3-0324 针对每个任务,仅激活其总计 685 亿参数中的 37 亿参数。这一设计的结果是:响应速度提升 4 倍,同时资源消耗显著降低,从而能够以更低的成本提供更加高效和灵敏的编码辅助功能。
我翻遍全网媒体,关注到了一个大家几乎都未特别说明的维度 ——DeepSeek-V3-0324 是一个非推理模型。而经网友测试,DeepSeek-V3-0324 现在已是在 Misguided Attention 测试中最好的非推理模型,相比 V3 提升了近 100%。
这个测试是一个专门设计用来评估大型语言模型(LLM)推理能力的基准测试。它的主要目的是检测模型在面对带有误导性信息的场景时,能否正确理解并处理问题,而不是简单地依赖训练数据中的常见模式或模板给出答案。
DeepSeek-V3-0324 作为非推理模型,能够获得如此巨量的提升,背后的模型架构优化很难不让人震惊。
作为对比,可以看看之前的 V3 的水平。
当时 DeepSeek 的得分,就和 Gemini 1.5 Pro 一样,表现说不上多好。
短短几个月间,DeepSeek-V3 在面对经典悖论、思维实验的表现就拉升到这个等级,这已经说明 DeepSeek-V3-0324 已近乎脱胎换骨了,具有极强的注意力分配能力,在面对误导性信息时仍然能抓住关键细节。
其次是,全网关注者最津津乐道的成本维度:
DeepSeek-V3-0324 的价格要比 Claude 3.7 Sonnet 在输入成本上低 21 倍,输出成本则低 53 倍
DeepSeek V3-0324:每百万 tokens 输入 / 输出费用为 $0.14/$0.28
Claude 3.7 Sonnet:每百万 tokens 输入 / 输出费用为 $3/$15
在开源模型领域,若要实现与该模型相当的性能水平,通常需要投入大量的 H 卡计算资源和训练时长。
但是,DeepSeek 凭借对前期版本(如 V3 甚至 R1)的训练经验积累,已能够进行进一步的优化调整,从而显著提升性能并降低资源需求。
之前DeepSeek的开源周,已然能够说明DeepSeek这家公司在大模型研发上的家底简直深不可测。
想必,Meta等一众欧美科技巨企,将会再次开启一波「DeepSeek作战室攻略」。
最近,AI 编程和氛围编程的热度不断攀高。
对于这个时代的普通人而言,如果想要亲手将一个产品从 0 到 1 亲手实现,大概率逃不过代码的阻挠,编程的复杂性往往成为难以逾越的障碍。
但是,随着 AI 技术嵌套进 IDE 中,代码逻辑的构建方式发生了巨变。
同时,代码能力稍显不足的大模型仍会拖累使用者的体验感受,从而达不到「进行氛围编码的快感」。
实际进行过 AI 编程进行代码构建的人,肯定早有感受:虽然 AI 编程平台鼓吹「你只需要一直 Tab、Tab即可轻松完成一个编程项目,但是可免费调用的模型的编码能力弱,好用的模型则需要高昂的会员费,这早已锁死了你的 Tab 键。
像是 Trae 海外版、Cursor、Windsurf 等一众产品内,真正称得上实用、甚至可以说是「唯一能用」的有且只有 Claude 3.7 Sonnet,其较高的使用门槛和高昂的价格,早已为普通用户经塑造了玻璃天花板。
与这些闭源模型相对,DeepSeek-V3-0324 这一版本的迭代,让大家再次意识到了:
DeepSeek,依然是那个 DeepSeek。