最新研究：阿里谷歌的小型开源模型达到GPT-5智力水平

AIGCLINK

2026-04-15 14:35发布于北京

第三方评测机构 Artificial Analysis 在 4 月 14 日发布了一份针对 32B 以下开源模型的对比报告。阿里的 Qwen3.5 27B 和谷歌的 Gemma 4 31B 这两个小尺寸开源模型，在综合智力评测上已经追上了 GPT-5。

Qwen3.5 27B 的推理版本在 Artificial Analysis 智力指数 v4.0 上拿到 42 分，正好等于 GPT-5 中等推理强度的水平。

Gemma 4 31B 的推理版本拿到 39 分，对齐 GPT-5 低推理强度。

这个评测是把 10 项硬评测加权得出的综合分数，覆盖编程、数学、科学推理、智能体任务等维度。目前榜单第一名是谷歌的 Gemini 3.1 Pro Preview 和 OpenAI 的 GPT-5.4，并列 57 分。

一年前同一份榜单上，小参数模型的得分还不是现在的样子。谷歌 2025 年 3 月发布的 Gemma 3 27B 只拿到 10 分。Qwen 这边的进步更隐蔽一点：原版 Qwen3 旗舰 235B 的成绩是 20 分，2507 更新版本涨到 30 分，到了 Qwen3.5 这一代，27B 的小模型直接拿到 42 分，比上一代 235B 的旗舰还高 12 分。

标志着开源小参数模型现在有机会能和前沿的闭源大模型掰手腕，今年在端侧硬件的本地化职能体验会有个很大的提升。

智力赶上了，但是知识没有

不过模型参数的缩小还是有代价的。

最明显的差距在事实知识这一项上。

Artificial Analysis 有一项专门测模型知识储备和幻觉控制的评测叫 AA-Omniscience，分数越高越好，负数代表答错的比答对的还多。Qwen3.5 27B 在这一项是 -42，Gemma 4 31B 是 -45。同样的评测，GPT-5 中等和低推理强度都是 -10。差距大概有 30 多分。

这个差距有它的物理基础。事实知识的存储依赖参数总量，27B 和 31B 的参数装不下 GPT-5 那个量级的世界知识，靠推理时多想几步也补不回来。一个对照样本是 Qwen3.5 自己的 397B 大模型，在同一项评测上拿到 -30，比 27B 的小弟好 12 分。同样是 Qwen3.5 一家，参数从 27B 涨到 397B，事实知识就明显改善。

所以如果你的应用场景是问历史、问百科、问冷门事实，小模型的幻觉率会比 GPT-5 高一截。这部分能力，目前没有靠算法蒸馏出来的捷径。

智能体任务上有点强

有意思的是，开源小模型并不是全面落后。

在 Artificial Analysis 智能体指数上，Qwen3.5 27B 拿到 55 分，反而高于 GPT-5 中等推理强度的 46 分。Gemma 4 31B 在终端任务的硬评测 Terminal-Bench Hard 上是 36%，GPT-5 低推理强度只有 27%。

在综合难题评测 Humanity's Last Exam 上，Gemma 4 31B 是 23%，GPT-5 低推理强度是 18%。

也就是说，两家的训练侧重点很清楚。开源小模型把推理力和工具使用能力练得很硬，事实知识那部分让位给了参数效率。GPT-5 走的是反方向，更宽的世界知识，更稳的事实回答。

视觉理解上两家都不弱。在多模态推理评测 MMMU-Pro 上，Qwen3.5 27B 是 75%，Gemma 4 31B 是 73%。两者都是原生多模态模型，不需要外挂视觉编码器，这是 32B 以下开源阵营里目前最好的两个选项。

27B 和 31B，差异在生成长度上

Qwen3.5 27B 跑完整套智力评测用了 9800 万输出 token，Gemma 4 31B 只用了 3900 万。差距是 2.5 倍。这里能看出两家的训练取向：Qwen 推理时倾向于把思考过程展开写完整，Gemma 倾向于更快收敛到答案。

分项上，Qwen3.5 27B 强在博士级科学问答和指令遵循这两类基准，覆盖面更广。Gemma 4 31B 在科学代码生成上比 Qwen 高 3.9 个百分点，在终端任务上高 3.8 个百分点。

如果场景对延迟和成本敏感，Gemma 这个生成效率优势会很实在。同样跑完一个智能体任务，账单和等待时间能差出一倍多。如果场景需要更广的能力上限和更高的天花板，Qwen 那 3 分的智力领先更值钱。

非推理模式下两家也都还能打。Gemma 4 31B 关掉推理后拿 32 分，token 用量降到 710 万，比推理模式少 5.5 倍，分数只掉 7 分。Qwen3.5 27B 非推理模式拿 37 分，用 2500 万 token，少 4 倍，掉 5 分。这两个非推理模式的水平，已经和不到一年前最强的推理模型差不多。对高吞吐部署场景来说，这是个相当不错的折衷点。

一张 H100 装得下，量化之后笔记本也能跑

报告里特别提了一句硬件门槛：Qwen3.5 27B 和 Gemma 4 31B 在标准 BF16 精度下都能装进单张英伟达 H100 80GB。如果再做 4 比特或 8 比特量化压缩，本地的 MacBook 也能跑。

这个门槛意味着这两个模型的可部署范围，已经从数据中心下沉到了个人开发者的桌面。结合开源加速工具栈的进展，本地跑 GPT-5 级别的智能模型这件事，正在从演示阶段过渡到日常可用阶段。

举两个最近的例子。

第一个是 Unsloth。

它原本是个微调加速库，2026 年 3 月发布了 Unsloth Studio，一个开源的本地无代码界面，把数据准备、训练、评估、部署整合在一个网页里。Unsloth 官方数据是相比标准微调流程减少 70% 显存，训练速度提升 2 倍，且精度无损失。它原生支持 Qwen3.5 全系（从 0.8B 到 112B 七个尺寸）、Gemma 4、DeepSeek、gpt-oss 这一批主流开源模型。对于想把开源模型跑在自己业务数据上的中小公司来说，原本要先组一个机器学习工程团队的门槛，被压低到会用网页上传数据集的程度。Red Hat 也已经把 Unsloth 集成到了它的企业方案里，作为低秩适配微调的官方后端。

第二个是 DFlash。

这是 NYU 上海 RITS 实验室在 2026 年 2 月放出的论文，4 月初演示在社交媒体上出圈。

它的核心思路是用一个轻量的扩散模型加速大模型生成。传统的加速方法需要一个小模型先一个 token 一个 token 地猜测下一步，再交给大模型批量验证。DFlash 让这个小模型一次前向就能并行猜出一整块 token，再交给大模型验证，效率高得多。

论文报告的成绩是 6 倍以上无损加速，比此前最好的同类方法还快 2.5 倍。z-lab 的 GitHub 仓库已经放出了适配 Qwen3.5-27B 的加速模型，主流推理框架 vLLM 和 SGLang 的集成也已经合入。在消费级硬件上跑 27B 模型能达到每秒 65 个 token，这个速度对本地交互来说是够用的。

把这两件事和 Qwen3.5 27B、Gemma 4 31B 放在一起看，路径就连起来了。

模型能力到位，27B 拿到 GPT-5 中等推理强度的智力分数；微调门槛降低，Unsloth Studio 让普通开发者能在本地数据上做适配；推理速度补齐，DFlash 把单卡推理速度提升 6 倍。

32B 以上的开源前沿，离闭源旗舰只差 6 分

把视野放宽到所有尺寸，开源阵营和专有阵营的差距比想象中还小。

Artificial Analysis 智力指数上，开源模型目前最高的是智谱的 GLM-5.1 拿到 51 分，月之暗面的 Kimi K2.5 是 47 分，Qwen3.5 的 397B 旗舰是 45 分。专有阵营的天花板是 Gemini 3.1 Pro Preview 和 GPT-5.4 的 57 分，Claude Opus 4.6 是 53 分。差距压缩到了 6 分。

一年前差距远远不止这个数。Gemma 3 时代开源最强还在 30 分上下，前沿闭源模型已经接近 50 分，差距是 20 分量级。这一年里，开源阵营把差距压缩了三分之二。

至于 27B 这个尺寸，Qwen3.5 的位置很有意思。它的 27B 密集模型用 42 分匹配自己家的 122B 混合专家模型，参数总量只有后者的五分之一。它的 35B 混合专家模型只激活 3B 参数，拿到 37 分。在参数效率这个维度上，Qwen3.5 把曲线往左下角推了一大截。

3 到 4B 激活参数的这个赛道也明显热闹起来了。一年前这个尺寸根本没有有竞争力的模型，现在五家实验室同时在竞争同一个点：Qwen3.5 35B 激活 3B 拿 37 分领跑，后面跟着 Gemma 4 26B 激活 4B 拿 31 分、智谱 GLM-4.7-Flash 30 分、英伟达 Nemotron Cascade 2 28 分，OpenAI 的 gpt-oss-20B 和英伟达 Nemotron 3 Nano 都在 24 分左右。混合专家架构在边缘推理成本这一边的优势，正在被多家集中验证。

一些判断

32B 以下的开源模型，现在能在通用智力评测上对齐 GPT-5 中等和低推理强度。它们能跑在单张 H100 上，量化之后能跑在笔记本上。微调有 Unsloth Studio 这种无代码工具，推理有 DFlash 这种 6 倍加速方案。这套工具链放在一年前是不存在的。

但要注意分数对齐不是能力等价。事实知识、长尾问题、多语言冷门场景上，小模型还是会被大模型甩开一截。

如果你的产品是问答类或者高度依赖世界知识的场景，评测分数好看不代表实战可用。如果你的场景是智能体、代码、结构化推理这一类 GPT-5 的硬功能区，开源 27B 已经是个能严肃考虑的本地替代。

对企业部署来说，今年的决策点其实变了。一年前的问题是开源模型够不够好用，现在的问题变成了用开源还是用 API 更划算。前者是技术问题，后者是工程和成本问题。这是个本质区别。