1.谷歌推出新架构Titan,旨在打破Transformer记忆瓶颈,提高模型性能。
2.Titan架构采用神经长期记忆模块,学习如何在测试时记住/忘记特定数据。
3.为此,团队设计了惊喜程度作为记忆模块的衡量标准,引入动量机制和遗忘机制。
4.Titans架构在语言建模、常识推理、时间序列预测等任务上全面超越Transformer等模型。
5.目前,Titan架构由Google Research NYC算法和优化团队开发,计划提供训练和评估代码。
以上内容由腾讯混元大模型生成,仅供参考
文章转载于量子位(QbitAI)
作者:梦晨
想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者 Titan 架构更受关注。
英伟达把测试时间计算(Test-time Computing)称为大模型的第三个 Scaling Law。
OpenAI 把它用在推理(Reasoning),谷歌这次把它用在了记忆(Memory)。
一作Ali Behrouz表示:
Titans 比 Transformers 和现代线性 RNN 更高效,并且可以有效地扩展到超过 200 万上下文窗口,性能比 GPT4、Llama3 等大模型更好。
他还解释了这篇研究的动机,团队认为 Transformer 中的注意力机制表现为短期记忆,因此还需要一个能记住很久以前信息的神经记忆模块。
新的长期记忆模块
提到记忆,大家可能会想到 LSTM、Transformer 等经典模型,它们从不同角度模拟了人脑记忆,但仍有局限性:
要么将数据压缩到固定大小的隐状态,容量有限 要么可以捕捉长程依赖,但计算开销随序列长度平方级增长
意料之外的事件(即“惊喜”)更容易被记住。 惊喜程度由记忆模块对输入的梯度来衡量,梯度越大说明输入越出人意料。 引入动量机制和遗忘机制,前者将短期内的惊喜累积起来形成长期记忆,后者可以擦除不再需要的旧记忆,防止记忆溢出。 记忆模块由多层 MLP 组成,可以存储深层次的数据抽象,比传统的矩阵记忆更强大。
这种在线元学习范式,避免了模型记住无用的训练数据细节,而是学到了如何根据新数据调整自己,具有更好的泛化能力。
MAG,记忆作为门
查看原图 198K