谷歌DeepMind公布新技术,提升模型推理性能

日前,谷歌DeepMind方面公布了一项名为“可微缓存增强”(Differentiable Cache Augmentation)的新技术,旨在提升大语言模型(LLMs)的推理性能。

公开信息显示,在语言处理、数学和推理领域,大型语言模型是解决复杂问题的重要工具,但随着模型复杂度的增加,如何在固定计算预算内保持高性能成为了一大挑战。传统提高模型性能的策略往往需要在任务处理期间生成中间步骤,但这会导致延迟增加和计算效率下降,从而限制模型处理复杂推理任务的能力,尤其是需要更长的依赖关系或更高地预测准确性的任务。

图片

而“可微缓存增强”技术则采用一个经过训练的协处理器,通过潜在嵌入来增强模型的键值(key-value,kv)缓存,从而丰富模型的内部记忆。据了解,该技术的关键创新在于在训练异步运行的协处理器时保持基础模型冻结。据谷歌DeepMind方面透露,在不明显额外增加计算负担的情况下,该技术可以显著提升大语言模型的推理性能。

据了解,“可微缓存增强”技术整套流程分为三个阶段,首先是从输入序列生成kv缓存,其次协处理器使用可训练的软令牌处理kv缓存、生成潜在嵌入,最后则是增强的kv缓存反馈到模型、生成更丰富的输出。

图片

根据谷歌DeepMind方面公布的相关信息显示,其使用Gemma-2 2B模型对“可微缓存增强”技术进行了测试,并且在多个基准测试中取得显著成果,例如在GSM8K数据集上准确率提高了10.05%。此外通过应用可微缓存增强,模型在多个标记位置的困惑度也得到了降低。

【本文图片来自网络】