千问 3.7:一个 AI 连续自主编程 35 小时之后

图片

5 月 20 日,阿里发布 Qwen3.7-Max。比起排名分数,一个 35 小时的实验更值得关注。 阿里让 Qwen3.7-Max 在一块训练时从未见过的芯片(平头哥真武 M890)上优化推理内核。没有人类干预。模型连续工作 35 小时,最终将速度提升到原来的 10 倍。

35 小时连续自主工作不退化。现有评测表格没有这项指标,但它引出一个 Agent 时代的关键问题:当模型已经足够聪明,下一步该比什么?

先回到 Qwen3.7-Max 本身。

排名、数据和发布节奏

根据第三方评测机构 Artificial Analysis 最新榜单,Qwen3.7-Max 得分 56.6,全球第 5,国产模型第 1,较上代旗舰进步 4.8 分。排在前面的是 GPT-5.4(xhigh)、Gemini 3.1 Pro Preview 和 Claude-Opus4.7(max)等少数模型。

图片

总分差距越来越小,但分项结构才是关键。千问官方技术博客公布的评测数据显示,Qwen3.7-Max 的优势集中在 Agent 相关维度:编程智能体评测 Terminal Bench 2.0-Terminus 得分 69.7,超过 DeepSeek-v4-Pro Max 的 67.9 和 Claude Opus 4.7 Max 的 65.4;多语言编程 SWE-Multilingual 以 78.3 分刷新纪录;通用智能体评测 MCP-Atlas 得分 76.4 超过 Opus-4.6 的 75.8。

图片

还有一组数据体现发布节奏。3 月 20 日 Qwen3.5-Max-Preview,4 月 20 日 Qwen3.6-Max-Preview,5 月 20 日 Qwen3.7-Max——每月迭代一代旗舰,每次发布刷新国产模型性能上限。千问官方的技术博客为这三代模型分别起了标题:「迈向原生多模态智能体」「走向现实世界智能体」「智能体新前沿」。方向始终如一。

以上是排名和数据部分。这次发布和过去每一次大模型发布相比,真正值得讨论的,是 Qwen3.7-Max 在 Agent 持久执行能力上的表现。

从单次智能到持久执行

大模型的竞争焦点每隔几个月就会迁移。最早比参数规模,千亿向万亿攀升;然后比基准跑分,MMLU、GPQA 成为硬通货;再到编程能力成为焦点,SWE-bench 系列成为核心指标。每一轮竞争都把上一轮的领先优势变成入场门槛。

但 Agent 场景对模型提出了一个本质不同的要求。传统评测衡量的是单次任务完成质量——写一段代码、解一道题、回答一个问题。Agent 需要的是另一回事:接受一个复杂目标,自主拆解、反复调用工具、持续迭代,几个小时甚至几十个小时持续稳定运行。

35 小时的内核优化实验正好提供了一个观察窗口。优化轨迹显示了一个关键特征:模型在前 4.5 小时快速将性能从 0.33 倍提升到 5.37 倍。到这个节点,大部分模型会选择停止。但 Qwen3.7-Max 在第 25 到 35 小时仍然产出优化,最后 3 小时通过架构重设计贡献了约 1.2 倍的提升。

图片

横向对比更说明问题。在相同条件下,GLM 5.1 达到 7.3 倍加速,Kimi K2.6 达到 5.0 倍,DeepSeek V4 Pro 为 3.3 倍,Qwen3.6-Plus 仅 1.1 倍。这些模型不是因为超时停止。它们在某个节点之后不再尝试调用任何工具——模型自己认为已经没有改进空间了。

另一个佐证来自 YC-Bench。这个测试将 AI 置于虚拟创业公司 CEO 角色,模型需要在长达一年的模拟周期内处理招聘、合同、客户筛选等数百轮连续决策。Qwen3.7-Max 累计完成 237 项任务,模拟营收达到 208 万美元,是上一代 Qwen3.6-Plus(105 万美元)的 2 倍,Qwen3.5-Plus(35.2 万美元)的 5.9 倍。

在传统跑分上,头部模型之间的差距往往只有几个百分点。但在持续执行场景中,差距被放大到了数倍甚至数量级。 这意味着 Agent 基座模型的竞争,正在从「谁更聪明」转向「谁能更持久地保持聪明」。

如果说耐力是纵向的深度问题,那么千问的另一个设计选择指向的是横向的宽度。

不绑定框架,做通用底座

根据千问官方团队的博客,Qwen3.7-Max 的评测分数来自多种不同的智能体框架,模型并非针对某一特定框架优化。训练方法上,千问团队把「做什么任务」「在哪个框架里做」和「怎么判定做对了」拆成三个独立变量,让模型在训练中不断面对不同组合,学习的是如何解题本身,而不是某个框架的操作习惯。在产品层面,千问直接提供了 Claude Code、OpenClaw、Qwen Code 三种框架的接入配置。

图片

这个选择的战略含义是:千问不做某一 Agent 产品的专属引擎。它要做不同 Agent 系统都能接入的通用底座。此前,千问已经发布超过 400 个模型,开发者基于千问构建的衍生模型更是突破 20 万个,全球下载量突破 10 亿次。跨框架泛化叠加这样的开发者生态,意味着一个平台化的定位。这和 Anthropic 围绕 Claude Code 构建自有工具链的路径形成对比——一个做封闭生态的最优引擎,一个做开放生态的通用底座。

但无论是纵向的耐力还是横向的兼容,背后都依赖同一个更底层的东西:让旗舰模型能以月为单位持续迭代的工程体系。

月更背后的体系能力

每月发布一个旗舰模型,在全球 AI 行业中并不多见。维持这种节奏,单靠模型团队的研发速度不够,背后需要从芯片到云平台到推理引擎的整条链路同步跟上。

此次阿里云峰会上,这条链路的各个环节同时亮相。

图片

芯片层,搭载真武 M890 的磐久 AL128 超节点服务器发布,128 张 AI 芯片通过自研互联芯片组成一台计算机,P2P 时延低于 150 纳秒。M890 的规格:144GB 显存、800GB/s 片间互联带宽、性能是上一代 810E 的 3 倍——大显存和高带宽直接服务于 Agent 场景下的长上下文和密集调用需求。云平台层,阿里云对产品进行了 Skill 化和 MCP 化改造,让 Agent 可以像调用函数一样使用云服务;新推出的「千问云」官网甚至取消了传统控制台入口,首页只有一行 Agent 可读的代码指令。推理平台层,百炼提供上下文缓存以消除 Agent 多轮任务中的重复计算,并引入 Agentic RL——基于 Agent 实际执行反馈的强化学习机制,让模型在真实场景中持续迭代。

35 小时实验恰好运行在真武 M890 上。模型从未接触过这个硬件,但依然产出了 10 倍加速。这个结果不只是模型能力的证明,也是芯片、云平台和推理引擎协同工作的产物。 月更节奏的可持续性,最终取决于这套体系的输出效率。

差距仍在,但战场变了

Artificial Analysis 榜单上,Qwen3.7-Max(56.6)虽然与全球顶尖模型Claude、GPT仍有差距。但在 Agent 的具体维度上,这种差距分布并不均匀:比如具体到Claude Oups 4.6 上, Qwen3.7-Max 和其在SWE-Verified 编程评测中只落后0.4 分(80.4 vs 80.8),而在MCP-Atlas 测试中,千问反而领先(76.4 vs 75.8)。

说到底,真实应用场景里,单次跑分的毫厘之差从来不是决定性变量。Agent 基座的竞争,比的是谁能在更低成本、更高频率下保持持久的执行力。在这个维度上,阿里从芯片到云到模型的垂直整合,是全球少数玩家具备的关键筹码。

从 3.5 到 3.7,千问连续三个月用产品回答同一个问题:Agent 时代的基座模型应该长什么样。35 小时实验给出了一个阶段性答案——不只是更聪明,还要更持久、更通用、更低成本。后续的关键变量仍然存在:开发者生态的迁移速度、企业端产品的落地效果、Qwen3.7-Plus 能否将能力从编程扩展到视觉识别。但月更旗舰的节奏本身说明一件事:阿里不等答案明朗,它用持续交付来不断重写问题。