👦🏻 作者: Jack
🥷 编辑: Koji
🧑🎨 排版: NCon
3月7日,OpenClaw 创始人 Peter Steinberger 在 X 上转发了一份 PinchBench 榜单:专门测「哪个模型跑 OpenClaw 最强」
这条推文获得了 42 万次浏览。
32 个模型参与评测,MiniMax M2.1 以 95.4% 的成功率排名第二,仅次于 Google Gemini 3 Flash。
我们之前也测试过MiniMax M2.5 这个模型:《春节,MiniMax的王炸牌来了》,从 OpenClaw 私人助理到前端网页到 iOS App 原型,表现很稳。
现在 M2.7 来了。但这次的升级,和之前「模型变强了」的故事不太一样。
这次,我们没有去跑通用 benchmark,而是直接把 M2.7 接进了「十字路口」自己的工作流里,让它在我们真实的工作中干活。
十字路口内容团队平时用 Notion 来协作创作内容,但每次发公众号都要手动搬运和重新排版,一直是个体力活。
这次我们直接让 M2.7 从零开始,帮我们开发一个 Chrome 扩展:一键把 Notion 文档转换成微信公众号格式。
开发一个chrome的插件,在飞书或者notion的文章页面打开时
转换成公众号的排版格式,可以一键粘贴,图片使用base64;
我会提供给你目前排版的json格式给你
刚开始,M2.7 清晰的识别了这个项目的难度,自动启动了Plan Mode,把任务拆成了几个阶段。
这里有一个细节值得单独说。开发 Chrome 扩展的过程中,需要和浏览器做联调,传统流程里,开发者得手动打开 DevTools、一层层翻 DOM 结构,费时费力
M2.7 的做法不一样:它自己通过命令行启动了 Chrome 远程调试模式,用 CDP 协议直接抓取页面的 DOM 结构,在 console 里分析 Notion 的渲染逻辑,然后才动手写代码。
遇到样式问题,它会自己回到 DevTools 排查,改完继续推进,全程不需要人工介入。
从项目搭建到核心功能到调试修复,大概跑了半天,基本是它自己完成的,我们只做了最后的微调。
最终 M2.7 还通过 CLI 工具自动把代码 PR 到了 GitHub 上,全程我们只手动提供了一个 GitHub Token
来看最终成品:在文章页面打开插件,点「一键转换」,几秒钟搞定,复制粘贴到公众号后台就行。
它甚至还顺手做了两件附加的事:
1、把「十字路口」现有的公众号排版规则整理成了一个可视化网页,每种元素的样式对比一目了然
2、做了一个带一键下载功能的安装教程页面,每一步都写得很清楚。
我们除了公众号,还有一档播客:「十字路口 Crossing」,我们长期关注 AI 创业者、产品和行业变化,在小宇宙上有近 10 万订阅。
我们每天需要保证有大量的信息输入,所以我们需要长期监控 AI 行业的头部播客,作为选题调研和学习资料。
为了效率,我们自己写了一个批量下载工具,可以直接从 YouTube 上把播客音视频拉下来归档。
这次我们想做一件事:把这个下载工具接进 OpenClaw,变成一个龙虾可以直接调用的 Skill。
把仓库交给 M2.7 之后,它没有闷头部署,而是先把项目结构、依赖关系和运行方式完整过了一遍。
过程中它还主动去查了 yt-dlp 近几个版本的 changelog,发现 cookie 处理逻辑已经改了,于是回到代码里把调用方式一起修掉,再把 Docker 里的版本号锁死,顺手把未来可能踩的坑也补上了
这个排查路径很清晰:先读项目结构 → 查上游变更 → 定位本地影响 → 修复 → 防御性加固,确实像一个干过几年的后端工程师的习惯。
现在这个工具已经正式跑在我们的 OpenClaw 上。
我们试一下把一个月前Lex Fridman访谈OpenClaw创始人Peter Steinberger的播客视频下载下来
此时只需要跟「十字路口小助手」说:“帮我下载Lex Fridman访谈Peter Steinberger的播客视频”。
中途可以随时问进度,大概不到 5 分钟,一期 3 小时的对谈视频就下载到文件夹里了。
熟悉我们的朋友都知道,「十字路口」每期视频播客不只是发一条——正片要发,切片也要发,小红书、视频号、抖音三个平台都得覆盖。
算下来一期内容少说也要分发七八条。
我们自己写了一个自动化工具来干这件事,Python 后端加 Chrome 扩展,一次搞定多平台多视频的发布。
这次让 M2.7 在这个工具的基础上做一轮功能迭代:补上封面自动适配。三个平台的封面比例各不相同,之前都是手动裁三次。
这个任务天然是一个多 Skill 串联的压力测试:读取视频源、识别平台差异、裁切封面、填写标题、设置定时发布。
每一步都是独立的能力调用,全部串起来才能跑通一次完整分发。
这也是 M2.7 在「指令遵循」和「复杂任务编排」上的一次真实考验
我们来看看这个多skill串联的情况下,M2.7完成的情况:
以上录屏全程自动化,零人工点击。可以看到它在处理视频号时,自动识别出封面有两种尺寸要求,做了差异化处理。
🚥
这三个项目,都是我们自己的工具,自己的 Bug,自己的工作流。
M2.7 跑下来,体感上最明显的变化有两个:
一、面对真实工程问题时,排查路径像一个有经验的开发者而不是一个搜索引擎
二、多 Skill 串联的场景下,上下文保持得比 M2.5 稳了不少
回到最开头我们的判断,为什么说这次 M2.7 的更新,和之前「模型变强了」的故事不太一样呢?
它没有在某个榜单上刷出一个惊人的数字,三个项目 跑下来也不是零瑕疵——有些 corner case 它确实还覆盖不到。
但和之前几个版本比,最明显的变化不是「能做到更多事」,而是「做得更稳、更像一个熟手了」。
这些能力提升的背后,有一个细节值得单独说:
MiniMax 技术博客里提到,M2.7 的 Agent 脚手架有一部分是模型自己优化的!全程自主跑了 100+ 轮迭代循环,效果提升 30%。
在 MLE Bench 的 22 道 Kaggle 竞赛题上拿了 9 金 5 银 1 铜,仅次于 Opus 4.6 和 GPT-5.4。
也就是说,我们在这三个项目里感受到的「更稳、更像老手」,不完全是人调出来的,有一部分是模型自己迭代出来的。
不到五个月,四个版本。
当一个模型不只是等着人来优化它,而是开始自己优化自己的时候,迭代速度的意义就变了。
它不再只是线性的,而是开始有复利了。