Kimi K2.5发布:当开源模型学会指挥百人军团

问AI · K2.5的智能体蜂群如何提升任务执行效率?
作者声明:该文章由AI辅助创作

 该图片可能由AI生成图片

月之暗面昨天发布了Kimi K2.5,这是目前最强大的开源模型。K2.5在K2基础上继续预训练了约15万亿混合视觉和文本token,作为原生多模态模型,它在编程、视觉能力和自主智能体协作方面都达到了顶尖水平。

最令人兴奋的突破是“智能体蜂群”范式。面对复杂任务时,K2.5能够自主调度多达100个子智能体,并行执行最多1500次工具调用。相比单智能体模式,执行时间最多缩短4.5倍。关键在于,这些子智能体和工作流程完全由K2.5自动创建和编排,无需任何预定义。

这背后是一套名为PARL的并行智能体强化学习方法。训练一个可靠的并行调度器极具挑战,因为来自独立运行子智能体的反馈是延迟的、稀疏的、不稳定的。常见的失败模式是“串行坍缩”,即调度器明明有并行能力却退化为单智能体执行。PARL通过分阶段奖励塑造来解决这个问题:训练早期鼓励并行探索,后期逐渐转向任务成功率优化。

在编程能力上,K2.5是目前最强的开源模型,尤其擅长前端开发。它能将简单对话转化为完整的前端界面,实现交互式布局和丰富动画效果。更重要的是,K2.5擅长“视觉编程”,能够通过推理图像和视频来改进代码生成和视觉调试。博客中展示了一个惊艳案例:K2.5分析一张迷宫图片,自动实现BFS算法找到最短路径,路径长度达113557步,并生成彩色可视化结果。

这种能力源于大规模视觉文本联合预训练。在足够的规模下,视觉和文本能力之间的权衡消失了,它们协同提升。

在办公生产力方面,K2.5能够端到端处理高密度、大规模的办公工作。它可以推理大型高密度输入,协调多步骤工具使用,直接通过对话输出专业级文档、电子表格、PDF和演示文稿。在内部专家生产力基准测试中,K2.5相比K2 Thinking分别提升了59.3%和24.3%。

从基准测试来看,K2.5在多个维度表现出色:HLE完整版30.1分,使用工具后达到50.2分;SWE-Bench Verified达到76.8%;MMMU-Pro达到78.5%。在智能体搜索任务BrowseComp上,K2.5以60.6分领先,使用蜂群模式更是达到78.4分。

图片

社区反应热烈但也保持理性。有用户指出这是开源权重模型,这意味着社区可以在此基础上改进、量化、学习和构建。也有用户提醒,模型也可能存在基准测试优化过度的问题,实际使用体验需要时间验证。

一个有趣的观察是:K2.5在工具调用方面表现最为可靠,这对智能体应用至关重要,但很少有人讨论这一点。结合最近的RLM技术,开源社区可能终于有了构建持续学习系统的合适模型。

K2.5目前可通过Kimi.com、Kimi App、API和Kimi Code使用,支持四种模式:K2.5 Instant、K2.5 Thinking、K2.5 Agent和K2.5 Agent Swarm测试版。

www.kimi.com/blog/kimi-k2-5.html