问AI · 这次突破对AI开源生态有何启示?
作者声明:该文章由AI辅助创作
文丨9527
月之暗面在4月20日正式发布并开源 Kimi K2.6,这款基于混合专家架构(MoE)的新模型在代码能力上率先打破了闭源模型长期垄断的格局。
SWE-Bench Pro:K2.6 领跑复杂代码修复
在衡量真实软件工程能力的 SWE-Bench Pro 测试中,Kimi K2.6 以 58.6% 的得分位居第一,超过 GPT-5.4(57.7%)、Gemini 3.1 Pro(54.2%)和 Claude Opus 4.6(53.4%)。这个基准测试专门考察模型在实际代码仓库中完成多文件、多步骤缺陷修复的能力——也就是真正的生产级编程任务,K2.6 对 Claude Opus 4.6 的优势超过 5 个百分点。
在 SWE-Bench Verified(单文件缺陷修复)上,三家公司得分差距极小:Claude Opus 4.6(80.8%)、Gemini 3.1 Pro(80.6%)、Kimi K2.6(80.2%),基本处于统计误差范围内。
命令行任务完成基准 Terminal-Bench 2.0 方面,Gemini 3.1 Pro 以 68.5% 拔得头筹,K2.6 以 66.7% 紧随其后,Claude Opus 4.6 和 GPT-5.4 均为 65.4%。
Agent 集群让这个模型玩出了新花样
K2.6 真正打出差异化的地方在于 Agent 集群能力。月之暗面官方披露,K2.6 可动态拆解复杂任务,自主调度最多 300 个子 Agent 并行处理,支持 4000 个协作步骤同步推进。
在 BrowseComp(Swarm 模式)基准上,K2.6 以 86.3% 的得分明显领先 GPT-5.4 的 78.4%,Claude 和 Gemini 均无对等的原生集群能力。
综合工具调用能力的 HLE-Full(tools)基准中,K2.6 同样以 54.0% 位列第一,Claude Opus 4.6(53.0%)、GPT-5.4(52.1%)和 Gemini 3.1 Pro(51.4%)依次排在后面。信息检索与综合基准 DeepSearchQA 上,K2.6 以 92.5% 的 F1 分数领先,Claude Opus 4.6 为 91.3%,GPT-5.4 和 Gemini 3.1 Pro 分别为 78.6% 和 81.9%。
13小时不停机编程,吞吐量从15到193
月之暗面披露了两个实测案例来佐证 K2.6 的编码能力。
第一个案例:在 Mac 本地部署 Qwen3.5-0.8B 模型时,K2.6 使用小众语言 Zig 进行推理优化,历经 12 小时不间断运行、4000 余次工具调用、14 轮迭代,将推理吞吐量从 15 tokens/s 提升至 193 tokens/s,速度比 LM Studio 快 20%。
第二个案例:在对开源金融撮合引擎 exchange-core 进行重构时,K2.6 连续作业 13 小时,迭代 12 套优化策略、修改逾 4000 行代码,最终令中位吞吐量增幅达 185%,峰值吞吐量增幅 133%。
K2.6 架构上采用 MoE 设计,总参数量约 1 万亿,但每次前向传播仅激活约 320 亿参数,推理成本相比等量密集模型大幅降低,且支持 vLLM、SGLang 等框架自托管部署,这是三家闭源对手无法提供的灵活性。
开源的代价:推理和多模态仍有差距
K2.6 也不是处处第一。
数学推理方面,GPT-5.4 在 AIME 2026 竞赛级数学测试中以 99.2% 接近满分,Gemini 3.1 Pro 为 98.3%,K2.6 为 96.4%,Claude Opus 4.6 为 96.7%。
多模态理解(MMMU-Pro)上,Gemini 3.1 Pro(83.0%)和 GPT-5.4(81.2%)领先 K2.6(79.4%),Claude Opus 4.6(73.9%)垫底。桌面自动化基准 OSWorld 方面,GPT-5.4 以 75.0% 最高,K2.6 为 73.1%,Claude Opus 4.6 以 72.7% 接近。
目前,Kimi K2.6 已向所有用户免费开放,支持通过 Kimi 官网、Kimi 应用、Kimi API(指定 `kimi-k2.6`)及 Kimi Code 编程助手调用。
在 SWE-Bench Pro 这项最接近真实生产场景的编程基准上,开源模型首次拿下第一——这个时刻来得比多数人预期的更早。
本文为AI生成,仅供参考、学习使用。