MiniMax M2.1 终于上线,咱憋了一肚子话终于能说了

昨天,MiniMax M2.1 发布。

前脚 MiniMax 刚传出通过港交所聆讯的消息,后脚就直接发布了新一代模型 —— M2.1

巧的是 GLM-4.7 也几乎选在同一时间段发布。你品,你细品这个时间点。这哪是发模型啊!

不过我不想聊资本故事,因为我拿到了 M2.1 的内测资格,连测了一晚上,觉得这个模型有点东西啊,体感约等于 90% 的 claude,怕是自己“幸存者偏差”,一直捂着没敢说。

直到今天看到官方晒了这个模型的成绩单,才证实我的感觉是对的。

图片

和 10 月底发布的 M2 相比,M2.1 提升显著,主打的赛道非常垂直—编程(Coding)

编程这个赛道和其他模型硬刚,主要看的就是在 SWE-bench 基准上测试。

SWE-bench 有几个版本,SWE-bench Verified(所有模型都必测的榜单)、Multi-SWE-bench(多编程语言版本,覆盖 Java、TypeScript、JavaScript、Go、Rust、C、C++ 多种语言)、SWE-bench Multilingual(也是多语言版,规模小一点)。

图片

从榜单看,M2.1 基本上都站到了第一梯队,尤其在多语言编程这块,数据上已经反超了 Claude Sonnet 4.5。

既然数据这么强,我就不客气了,我就直接反手拿了一些硬骨头来好好考考它!

基于 Java 的卫星调度系统

以前的大模型有个通病:只擅长脚本语言(换句话说,就是处理、并发简单的语言)。 对于强类型的系统级语言,写的全是坑。。。。这次 M2.1 号称重点补齐了这 8 种主流语言的专项强化,那我首先来测一个 Java 的 Coding 能力!

基于 Java 实现一个卫星和地面站的实时通信系统。

我的要求很刁钻:核心物理计算必须全部放在后端,不能用前端糊弄。

结果让我很意外: 它真的手搓了开普勒轨道公式,自己写了一套射线碰撞检测算法来判断信号遮挡,甚至根据距离动态计算信号衰减颜色。后端负责复杂的物理计算,前端只负责 3D 渲染,看着确实还是有点干 Java 的工程师的味道了。

全球黑客攻击系统

写过全栈的朋友都知道,前后端分离不仅仅是把代码分开存那么简单。

之前用 AI 写全栈,最大的痛苦是“串味儿”,在一个上下文里面,AI 弄不明白该用什么写什么。。。

为了测试 M2.1 的脑子清不清楚,能不能前后端理清楚,我让它构建一个黑客实时攻击可视化系统

  • 后端:用 Python (FastAPI) 处理高并发请求,通过 WebSocket 推送攻击数据。
  • 前端:用 Deck.gl 做高性能 WebGL 渲染。

这个项目算是一个多语言项目,涉及到异构语言的协作。之前最大的问题是前端思维强行套后端,比如让它写个 Python 后端,给你整个 Flask 单文件,所有逻辑堆在一起。

现在,M2.1 可以理解前后端职责边界,把并发和数据处理这种重活儿扔给 Python 后端,渲染这种浏览器擅长的事交给前端做。

一键生成手机模拟系统

接下来是一个前段时间 gemini 3 很火、难度还是 hard 的例子,“一键生成功能齐全、交互友好、具备人工智能功能的模拟手机系统。”

这题难在“套娃”上,网页里跑手机,手机里还要跑 AI App。M2.1 写得很快,大概不到 30 分钟跑出来了,一次就运行成功了:

它成功构建了一个拟物化的手机 OS, 状态栏、Home 条、各种系统 App 图标一应俱全,还在模拟手机里写了一个简易的 Chat App,逻辑闭环非常完整。

这种 One-Shot 一次生成的长链路逻辑能力,确实是很亮眼。

视觉 UI:全球科学家死亡调查可视化报告

除了多语言的全栈能力,我还发现 M2.1 的“美商”有了肉眼可见的提升!

图片

我给它扔了几个抽象关键词:“冷静、客观、档案解密”,让它基于 React + WebGL 做一个全球科学家死亡调查可视化报告:

功能完备之上,开始懂怎么用 UI 传递情绪,它自己推导出了深色配色方案,交互动画的逻辑都设计出来了,整体动画清晰丝滑流畅。

操作浏览器:去 Boss 直聘招人

除了编程场景,作为一个 Agentic 的模型,Agent 脚手架能力也是必不可少。

我给它派了个活: “去 Boss 直聘搜前端开发,把前 15 个职位的薪资、公司、技能要求扒下来,做成 Excel 给我。”

图片

M2.1:“收到收到!”

它的操作是调起浏览器输入、搜索、滚动加载、点击详情页,我能清晰地看到它像个真人用户一样操作浏览器:

直接返回一份包含详细的 Excel 文件给我。

图片

不废话,就是干活。

结尾

这次 M2.1 的升级明显是冲着“全栈工程落地”来的。

以前的大模型的 Coding 能力是有明确短板的,写 Python 脚本、写前端溜得飞起,每天只敢吵着前端要完了,但是一写 Java/Go/Rust/C++ 这种系统级语言,工程结构就乱套,接口内存并发全是坑。

M2.1 重点补齐了这 8 种主流语言的能力,甚至连 Android 和 iOS 的原生开发都做了专项强化。MiniMax 还顺手开源了一个评测集 VIBE :

传送门:https://huggingface.co/datasets/MiniMaxAI/VIBE,

让 AI 真的去写 Web、Android、iOS 和后端应用,然后用 Agent 去验证能不能跑。结果显示,它已经和 Claude 4.5 Sonnet 拉开了身位,甚至逼近了 Opus 4.5:

图片

那讲到这里,其实想让 M2.1 接入你的工作流帮你干活,只需简单两步:

第一步:获取工牌

访问 MiniMax 开放平台 ,在右上角【账户管理】中获取 groupID,点击“创建新的密钥”获取 API Key

注意:Key 只显示一次,请妥善保存!如果不慎丢失,需要立刻补办工牌

第二步:安排工位

目前 MiniMax2.1 可以通过  Cursor、VS Code (Cline/Kilo)、Claude Code 及 Droid/OpenCode 、Trae 等环境配置 API 无缝接入工作流。

比如大家常用的 Cursor ,可以首先进入 Settings > Model,勾选 Override OpenAI Base URL,填入:https://api.minimaxi.com/v1,填入你的 API Key,点击 Enable。添加自定义模型:MiniMax-M2.1

还有,Claude Code 极客用户如果你习惯命令行,可以在 ~/.claude/settings.json 中配置后调用,也可以使用 VsCode 里面的 Claude Code 插件调用

具体教程咱准备好了:

传送门:

https://platform.minimaxi.com/docs/api-reference/text-anthropic-api

我知道肯定有小伙伴手痒了,但又嫌配置 API 麻烦,想先上手“摸摸底”,咱可以通过官网开放的在线体验链接,体验由 MiniMax2.1 驱动的 Agent 的模式 ~

传送门:

https://platform.minimaxi.com/subscribe/coding-plan

家人们,速速上手 ~ 评论区等你们的实测反馈!