2025年6月17日,LMArena公布最新WebDev Arena排行榜,DeepSeek-R1(0528)冲进第一。
成功晋级编程第一梯队,与Claude 4、Gemini 2.5 Pro并列第一。
文本方向,DeepSeek-R1总排名第六,开源模型第一。
细分方向上,编程第2,复杂提示词第4,数学第5。
① 编程榜单
②复杂提示词,数学,榜单
③open model榜单
OpenAI仍然领先;
谷歌通过veo3反超;
Meta开始落后;
Grok 3.5暂无动静。
榜单发布的同时,月之暗面也发布了开源代码模型Kimi-Dev-72B。
在软件工程任务基准测试SWE-bench Verified上60.4%,创下开源模型新纪录,超越了DeepSeek在内的多个竞争对手。
Kimi-Dev-72B以 Qwen 2.5-72B 基础模型为起点,收集了数百万个 GitHub 问题单和 PR 提交作为中期训练数据集。
Kimi-Dev基于Qwen模型二次开发,然而,商业使用时需要经过阿里授权。
Qwen团队负责人林俊旸(Junyang Lin)在X平台上回复简短而直接:"no we did not give them the permission"(不,我们没有给他们授权)。
于是,有人指责kimi套壳。
那kimi是否违规呢?
不是违规,而是Qwen团队自身许可策略演进中的“历史遗留问题”。
“nvm this is our legacy issue. for qwen3, all are under apache 2.0 now.”没事了,这是我们的历史遗留问题。对于qwen3,现在所有模型都采用apache 2.0协议了。
参考:
新智元 DeepSeek-R1编程问鼎,媲美Claude 4!2025 AI上半场战报来袭
周一星:https://mp.weixin.qq.com/s/jpjm-NrS9KWyXiVGBaUmag