大模型编程榜更新:DeepSeek-R1晋升第一梯队,Kimi-Dev-72B突现

2025年6月17日,LMArena公布最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。


成功晋级编程第一梯队,与Claude 4、Gemini 2.5 Pro并列第一。

图片

文本方向,DeepSeek-R1总排名第六,开源模型第一。

细分方向上,编程第2,复杂提示词第4,数学第5。


① 编程榜单

图片

②复杂提示词,数学,榜单

图片

③open model榜单

图片


OpenAI仍然领先;

谷歌通过veo3反超;

Meta开始落后;

Grok 3.5暂无动静。


榜单发布的同时,月之暗面也发布了开源代码模型Kimi-Dev-72B。


在软件工程任务基准测试SWE-bench Verified上60.4%,创下开源模型新纪录,超越了DeepSeek在内的多个竞争对手。


Kimi-Dev-72B以 Qwen 2.5-72B 基础模型为起点,收集了数百万个 GitHub 问题单和 PR 提交作为中期训练数据集。


Kimi-Dev基于Qwen模型二次开发,然而,商业使用时需要经过阿里授权。


Qwen团队负责人林俊旸(Junyang Lin)在X平台上回复简短而直接:"no we did not give them the permission"(不,我们没有给他们授权)


于是,有人指责kimi套壳。


那kimi是否违规呢?


不是违规,而是Qwen团队自身许可策略演进中的“历史遗留问题”。


“nvm this is our legacy issue. for qwen3, all are under apache 2.0 now.”没事了,这是我们的历史遗留问题。对于qwen3,现在所有模型都采用apache 2.0协议了。



参考:

新智元 DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭

周一星:https://mp.weixin.qq.com/s/jpjm-NrS9KWyXiVGBaUmag