真实世界的代码能力测试:开源模型正在逼近闭源前沿

 该图片可能由AI生成图片

Nebius团队发布了最新一期SWE-rebench排行榜,基于48个上个月新创建的GitHub PR任务进行测试。这个基准测试的独特之处在于它使用"新鲜"的问题,模型需要阅读真实的PR问题、编辑代码、运行测试,直到完整测试套件通过。由于测试问题在模型发布之后才产生,这意味着模型无法通过预训练来"刷分"。

闭源模型阵营中,Claude Code搭配Opus 4.6以52.9%的解决率领跑,pass@5更是达到了70.8%。Claude Opus 4.6和gpt-5.2-xhigh紧随其后,都在51.7%左右。有趣的是gpt-5.2-medium也达到了51%,与顶尖配置差距极小。

开源模型阵营的表现令人振奋。Kimi K2 Thinking以43.8%领先,GLM-5达到42.1%,而Qwen3-Coder-Next以40%的成绩杀入前列。MiniMax M2.5以39.6%的成绩展现了极高的性价比。

最令社区意外的是Qwen3-Coder-Next的表现。这个80B参数的模型在pass@5指标上达到了64%,甚至超过了Opus 4.6,位居所有模型之首。更关键的是,它并非推理模型,却在M3 Max上能跑到60 t/s。有用户指出,虽然它不是推理模型,但实际消耗的token数量是MiniMax的两倍,这说明它采取了更多轮次和工具调用来"探索尝试",而非"长时间思考"。

这种行为差异引发了有趣的讨论:相同架构的模型可以表现出完全不同的工作风格,关键在于后训练阶段强化学习所奖励的行为模式。有人更偏好探索型模型,认为最糟糕的情况是模型思考很久却被工具调用证伪,或者因为上下文被思考内容污染而忽略工具返回的结果。

Kimi系列出现了一个反常现象:较老的K2 Thinking以43.8%明显优于更新的K2.5的37.9%。官方确认K2 Thinking产生更长的推理轨迹,在推理阶段消耗更多token。有用户推测这可能是K2.5为成本优化做出的妥协。还有开发者分享了一个实用发现:K2.5在32k上下文后会出现工具调用"假装"问题,每16k token发送一次工具使用提醒可以解决。

基准测试本身也引发了讨论。Opus 4.5在去年11月达到63.3%,12月却跌到43.8%,波动之大让一些人质疑其可靠性。但支持者认为这正体现了真实场景的不确定性,每月使用全新问题正是避免数据污染的设计初衷。也有人指出,模型在Python上被过度训练,希望看到持续更新的多语言基准测试,比如Elixir或Rust。

对于本地运行用户,有几个实践经验值得注意:Qwen3-Coder-Next在MLX上的质量和速度明显优于llama.cpp。有用户发现使用DRY惩罚参数会导致编码任务输出异常,在TypeScript中出现不该有的空格和下划线。温度设为0、DRY乘数设为0的配置更为稳定。

一位每天使用Qwen3-Coder-Next的用户坦言,虽然基准分数出色,但实际使用中经常需要用MiniMax或GLM来修复它产生的错误。基准测试和日常体验之间的差距,或许正是这类测试最值得玩味的地方。

www.reddit.com/r/LocalLLaMA/comments/1r3weq3/swerebench_jan_2026_glm5_minimax_m25/