Kimi K2.5发布：当开源模型学会指挥百人军团

AI可可AI生活

2026-01-28 07:43发布于北京科技领域创作者

问AI · K2.5的智能体蜂群如何提升任务执行效率？

作者声明：该文章由AI辅助创作

该图片可能由AI生成

月之暗面昨天发布了Kimi K2.5，这是目前最强大的开源模型。K2.5在K2基础上继续预训练了约15万亿混合视觉和文本token，作为原生多模态模型，它在编程、视觉能力和自主智能体协作方面都达到了顶尖水平。

最令人兴奋的突破是“智能体蜂群”范式。面对复杂任务时，K2.5能够自主调度多达100个子智能体，并行执行最多1500次工具调用。相比单智能体模式，执行时间最多缩短4.5倍。关键在于，这些子智能体和工作流程完全由K2.5自动创建和编排，无需任何预定义。

这背后是一套名为PARL的并行智能体强化学习方法。训练一个可靠的并行调度器极具挑战，因为来自独立运行子智能体的反馈是延迟的、稀疏的、不稳定的。常见的失败模式是“串行坍缩”，即调度器明明有并行能力却退化为单智能体执行。PARL通过分阶段奖励塑造来解决这个问题：训练早期鼓励并行探索，后期逐渐转向任务成功率优化。

在编程能力上，K2.5是目前最强的开源模型，尤其擅长前端开发。它能将简单对话转化为完整的前端界面，实现交互式布局和丰富动画效果。更重要的是，K2.5擅长“视觉编程”，能够通过推理图像和视频来改进代码生成和视觉调试。博客中展示了一个惊艳案例：K2.5分析一张迷宫图片，自动实现BFS算法找到最短路径，路径长度达113557步，并生成彩色可视化结果。

这种能力源于大规模视觉文本联合预训练。在足够的规模下，视觉和文本能力之间的权衡消失了，它们协同提升。

在办公生产力方面，K2.5能够端到端处理高密度、大规模的办公工作。它可以推理大型高密度输入，协调多步骤工具使用，直接通过对话输出专业级文档、电子表格、PDF和演示文稿。在内部专家生产力基准测试中，K2.5相比K2 Thinking分别提升了59.3%和24.3%。

从基准测试来看，K2.5在多个维度表现出色：HLE完整版30.1分，使用工具后达到50.2分；SWE-Bench Verified达到76.8%；MMMU-Pro达到78.5%。在智能体搜索任务BrowseComp上，K2.5以60.6分领先，使用蜂群模式更是达到78.4分。

社区反应热烈但也保持理性。有用户指出这是开源权重模型，这意味着社区可以在此基础上改进、量化、学习和构建。也有用户提醒，模型也可能存在基准测试优化过度的问题，实际使用体验需要时间验证。

一个有趣的观察是：K2.5在工具调用方面表现最为可靠，这对智能体应用至关重要，但很少有人讨论这一点。结合最近的RLM技术，开源社区可能终于有了构建持续学习系统的合适模型。

K2.5目前可通过Kimi.com、Kimi App、API和Kimi Code使用，支持四种模式：K2.5 Instant、K2.5 Thinking、K2.5 Agent和K2.5 Agent Swarm测试版。