当自回归遇到瓶颈,扩散语言模型能否开启AI的下一个时代?

作者声明:该文章由AI辅助创作

 该图片可能由AI生成图片

华为诺亚方舟实验室联合北大、南洋理工的研究团队发布了一份关于扩散语言模型未来发展的深度洞察,系统梳理了这一领域的十大核心挑战与破局之道。

我们熟悉的GPT系列模型,本质上是“逐字预测”的自回归架构。就像一个作家只能从左往右写,写完一个字才能写下一个字,永远无法回头修改前文。这种“因果瓶颈”带来了三个根本性限制:错误会逐步累积、缺乏全局视野、无法根据后文修正前文。

扩散语言模型提供了一种截然不同的思路。它更像一位雕塑家,从一块粗糙的大理石开始,同时打磨作品的各个部分,逐步让整体轮廓清晰起来。这种“整体去噪”的方式天然支持双向上下文建模和灵活的文本编辑。

然而理想很丰满,现实很骨感。研究团队指出了十个阻碍扩散语言模型发展的关键瓶颈:

在基础设施层面,当前的Transformer架构是为自回归任务优化的,KV缓存机制在扩散模型的非顺序去噪过程中几乎失效。同时,BPE等分词方法过于“扁平”,缺乏人类认知中固有的层次结构。

在训练优化层面,梯度稀疏是个大问题。长序列预训练时,模型只对少量被遮蔽的token计算损失,大量计算资源被浪费。单一的遮蔽token也过于简单,无法区分代码中的控制流操作符和散文中的填充词。

在推理能力层面,扩散模型需要预设输出长度,这既不灵活也不高效。更关键的是,当前的思维链范式是线性的,没有充分利用扩散模型“边生成边修改”的独特优势。

研究团队提出了四大支柱战略来破解这些难题:

第一,重新设计非因果架构。开发原生支持扩散的注意力结构,采用多尺度分词框架,让模型能像人类一样先构思大纲再填充细节。

第二,革新优化机制。通过动态遮蔽比例、多步轨迹蒸馏、推测解码等技术提升效率。引入结构化遮蔽,用不同类型的遮蔽token表达不同的语义功能。

第三,构建扩散原生的认知推理。从线性思维链转向“先大纲后细节”的迭代过程,让模型能够主动识别低置信度区域并重新生成,实现真正的“潜在思考”和自我修正。

第四,打造统一的多模态架构。将理解、生成、行动视为同一去噪流形上的不同点,用单一框架处理所有模态。

这份研究的深层洞见在于:扩散语言模型不只是另一种生成技术,而是一种更接近人类思维方式的范式。人类做研究时,会不断提出假设、收集证据、推翻结论、重新构建。这种非线性的认知过程,恰恰是扩散模型的天然优势所在。

当我们需要AI完成深度研究、长期规划、复杂推理时,自回归模型的局限性会愈发明显。而扩散模型支持的全局编辑、迭代修正、信念更新,为构建真正的研究型智能体提供了更合适的基底。

从“预测下一个词”到“雕琢整体结构”,这不仅是技术路线的转变,更是向更鲁棒、更接近人类智能的AI迈进的关键一步。

arxiv.org/abs/2601.14041