最新研究:阿里谷歌的小型开源模型达到GPT-5智力水平

第三方评测机构 Artificial Analysis 在 4 月 14 日发布了一份针对 32B 以下开源模型的对比报告。阿里的 Qwen3.5 27B 和谷歌的 Gemma 4 31B 这两个小尺寸开源模型,在综合智力评测上已经追上了 GPT-5。

图片

Qwen3.5 27B 的推理版本在 Artificial Analysis 智力指数 v4.0 上拿到 42 分,正好等于 GPT-5 中等推理强度的水平。

Gemma 4 31B 的推理版本拿到 39 分,对齐 GPT-5 低推理强度。

这个评测是把 10 项硬评测加权得出的综合分数,覆盖编程、数学、科学推理、智能体任务等维度。目前榜单第一名是谷歌的 Gemini 3.1 Pro Preview 和 OpenAI 的 GPT-5.4,并列 57 分。

一年前同一份榜单上,小参数模型的得分还不是现在的样子。谷歌 2025 年 3 月发布的 Gemma 3 27B 只拿到 10 分。Qwen 这边的进步更隐蔽一点:原版 Qwen3 旗舰 235B 的成绩是 20 分,2507 更新版本涨到 30 分,到了 Qwen3.5 这一代,27B 的小模型直接拿到 42 分,比上一代 235B 的旗舰还高 12 分。

标志着开源小参数模型现在有机会能和前沿的闭源大模型掰手腕,今年在端侧硬件的本地化职能体验会有个很大的提升。


图片

智力赶上了,但是知识没有

不过模型参数的缩小还是有代价的。

最明显的差距在事实知识这一项上。

Artificial Analysis 有一项专门测模型知识储备和幻觉控制的评测叫 AA-Omniscience,分数越高越好,负数代表答错的比答对的还多。Qwen3.5 27B 在这一项是 -42,Gemma 4 31B 是 -45。同样的评测,GPT-5 中等和低推理强度都是 -10。差距大概有 30 多分。

这个差距有它的物理基础。事实知识的存储依赖参数总量,27B 和 31B 的参数装不下 GPT-5 那个量级的世界知识,靠推理时多想几步也补不回来。一个对照样本是 Qwen3.5 自己的 397B 大模型,在同一项评测上拿到 -30,比 27B 的小弟好 12 分。同样是 Qwen3.5 一家,参数从 27B 涨到 397B,事实知识就明显改善。

所以如果你的应用场景是问历史、问百科、问冷门事实,小模型的幻觉率会比 GPT-5 高一截。这部分能力,目前没有靠算法蒸馏出来的捷径。


图片

智能体任务上有点强

有意思的是,开源小模型并不是全面落后。

在 Artificial Analysis 智能体指数上,Qwen3.5 27B 拿到 55 分,反而高于 GPT-5 中等推理强度的 46 分。Gemma 4 31B 在终端任务的硬评测 Terminal-Bench Hard 上是 36%,GPT-5 低推理强度只有 27%。

在综合难题评测 Humanity's Last Exam 上,Gemma 4 31B 是 23%,GPT-5 低推理强度是 18%。

也就是说,两家的训练侧重点很清楚。开源小模型把推理力和工具使用能力练得很硬,事实知识那部分让位给了参数效率。GPT-5 走的是反方向,更宽的世界知识,更稳的事实回答。

视觉理解上两家都不弱。在多模态推理评测 MMMU-Pro 上,Qwen3.5 27B 是 75%,Gemma 4 31B 是 73%。两者都是原生多模态模型,不需要外挂视觉编码器,这是 32B 以下开源阵营里目前最好的两个选项。


图片

27B 和 31B,差异在生成长度上

Qwen3.5 27B 跑完整套智力评测用了 9800 万输出 token,Gemma 4 31B 只用了 3900 万。差距是 2.5 倍。这里能看出两家的训练取向:Qwen 推理时倾向于把思考过程展开写完整,Gemma 倾向于更快收敛到答案。

分项上,Qwen3.5 27B 强在博士级科学问答和指令遵循这两类基准,覆盖面更广。Gemma 4 31B 在科学代码生成上比 Qwen 高 3.9 个百分点,在终端任务上高 3.8 个百分点。

如果场景对延迟和成本敏感,Gemma 这个生成效率优势会很实在。同样跑完一个智能体任务,账单和等待时间能差出一倍多。如果场景需要更广的能力上限和更高的天花板,Qwen 那 3 分的智力领先更值钱。

非推理模式下两家也都还能打。Gemma 4 31B 关掉推理后拿 32 分,token 用量降到 710 万,比推理模式少 5.5 倍,分数只掉 7 分。Qwen3.5 27B 非推理模式拿 37 分,用 2500 万 token,少 4 倍,掉 5 分。这两个非推理模式的水平,已经和不到一年前最强的推理模型差不多。对高吞吐部署场景来说,这是个相当不错的折衷点。


图片

一张 H100 装得下,量化之后笔记本也能跑

报告里特别提了一句硬件门槛:Qwen3.5 27B 和 Gemma 4 31B 在标准 BF16 精度下都能装进单张英伟达 H100 80GB。如果再做 4 比特或 8 比特量化压缩,本地的 MacBook 也能跑。

图片

这个门槛意味着这两个模型的可部署范围,已经从数据中心下沉到了个人开发者的桌面。结合开源加速工具栈的进展,本地跑 GPT-5 级别的智能模型这件事,正在从演示阶段过渡到日常可用阶段。

举两个最近的例子。

  • 第一个是 Unsloth。

它原本是个微调加速库,2026 年 3 月发布了 Unsloth Studio,一个开源的本地无代码界面,把数据准备、训练、评估、部署整合在一个网页里。Unsloth 官方数据是相比标准微调流程减少 70% 显存,训练速度提升 2 倍,且精度无损失。它原生支持 Qwen3.5 全系(从 0.8B 到 112B 七个尺寸)、Gemma 4、DeepSeek、gpt-oss 这一批主流开源模型。对于想把开源模型跑在自己业务数据上的中小公司来说,原本要先组一个机器学习工程团队的门槛,被压低到会用网页上传数据集的程度。Red Hat 也已经把 Unsloth 集成到了它的企业方案里,作为低秩适配微调的官方后端。

  • 第二个是 DFlash。

这是 NYU 上海 RITS 实验室在 2026 年 2 月放出的论文,4 月初演示在社交媒体上出圈。

它的核心思路是用一个轻量的扩散模型加速大模型生成。传统的加速方法需要一个小模型先一个 token 一个 token 地猜测下一步,再交给大模型批量验证。DFlash 让这个小模型一次前向就能并行猜出一整块 token,再交给大模型验证,效率高得多。

论文报告的成绩是 6 倍以上无损加速,比此前最好的同类方法还快 2.5 倍。z-lab 的 GitHub 仓库已经放出了适配 Qwen3.5-27B 的加速模型,主流推理框架 vLLM 和 SGLang 的集成也已经合入。在消费级硬件上跑 27B 模型能达到每秒 65 个 token,这个速度对本地交互来说是够用的。

图片

把这两件事和 Qwen3.5 27B、Gemma 4 31B 放在一起看,路径就连起来了。

模型能力到位,27B 拿到 GPT-5 中等推理强度的智力分数;微调门槛降低,Unsloth Studio 让普通开发者能在本地数据上做适配;推理速度补齐,DFlash 把单卡推理速度提升 6 倍。


图片

32B 以上的开源前沿,离闭源旗舰只差 6 分

把视野放宽到所有尺寸,开源阵营和专有阵营的差距比想象中还小。

Artificial Analysis 智力指数上,开源模型目前最高的是智谱的 GLM-5.1 拿到 51 分,月之暗面的 Kimi K2.5 是 47 分,Qwen3.5 的 397B 旗舰是 45 分。专有阵营的天花板是 Gemini 3.1 Pro Preview 和 GPT-5.4 的 57 分,Claude Opus 4.6 是 53 分。差距压缩到了 6 分。

一年前差距远远不止这个数。Gemma 3 时代开源最强还在 30 分上下,前沿闭源模型已经接近 50 分,差距是 20 分量级。这一年里,开源阵营把差距压缩了三分之二。

至于 27B 这个尺寸,Qwen3.5 的位置很有意思。它的 27B 密集模型用 42 分匹配自己家的 122B 混合专家模型,参数总量只有后者的五分之一。它的 35B 混合专家模型只激活 3B 参数,拿到 37 分。在参数效率这个维度上,Qwen3.5 把曲线往左下角推了一大截。

3 到 4B 激活参数的这个赛道也明显热闹起来了。一年前这个尺寸根本没有有竞争力的模型,现在五家实验室同时在竞争同一个点:Qwen3.5 35B 激活 3B 拿 37 分领跑,后面跟着 Gemma 4 26B 激活 4B 拿 31 分、智谱 GLM-4.7-Flash 30 分、英伟达 Nemotron Cascade 2 28 分,OpenAI 的 gpt-oss-20B 和英伟达 Nemotron 3 Nano 都在 24 分左右。混合专家架构在边缘推理成本这一边的优势,正在被多家集中验证。

图片


图片

一些判断

32B 以下的开源模型,现在能在通用智力评测上对齐 GPT-5 中等和低推理强度。它们能跑在单张 H100 上,量化之后能跑在笔记本上。微调有 Unsloth Studio 这种无代码工具,推理有 DFlash 这种 6 倍加速方案。这套工具链放在一年前是不存在的。

但要注意分数对齐不是能力等价。事实知识、长尾问题、多语言冷门场景上,小模型还是会被大模型甩开一截。

如果你的产品是问答类或者高度依赖世界知识的场景,评测分数好看不代表实战可用。如果你的场景是智能体、代码、结构化推理这一类 GPT-5 的硬功能区,开源 27B 已经是个能严肃考虑的本地替代。

对企业部署来说,今年的决策点其实变了。一年前的问题是开源模型够不够好用,现在的问题变成了用开源还是用 API 更划算。前者是技术问题,后者是工程和成本问题。这是个本质区别。