客户端
游戏
无障碍

0

评论

1

分享

手机看

微信扫一扫,随时随地看

MHA/MQA/GQA过时了?姚班TPA改写规则:一个框架统治所有注意力设计

始智AI wisemodel.cn开源社区

在人工智能领域,内存占用和性能之间的平衡一直是亟待解决的难题。姚期智院士团队带来了破局方案——全新注意力机制TPA。

TPA通过对每个token实施动态张量分解,突破传统。它不再保存完整的静态KV,而是存储其分解版本。

实验数据显示,这一创新使内存占用锐减90%甚至更多,同时模型性能并未受到丝毫影响。

TPA不仅性能卓越,还从理论上证明了流行的MHA、MQA、GQA都是它的特殊情况,用一个框架统一了现代注意力设计

T6一经发布便引发各界热议。创业者们惊喜地发现,借助TPA技术,能大幅降低云服务成本;研究者们则期待团队能在更大规模模型上开展实验,带来更多令人期待的成果。代码已上线始智AI-wisemodel开源社区,欢迎大家使用。

图片

代码地址

https://wisemodel.cn/codes/yifanzhang/T6/intro

动态张量分解,无缝集成RoPE


在AI领域,现有注意力机制虽然成果斐然,却饱受计算与内存开销大的困扰。像DeepSeek-v2提出的MLA,虽压缩了KV缓存,却与RoPE位置编码不兼容,每个注意力头都得额外设置位置编码参数。为突破这些瓶颈,姚期智院士团队创新性地推出张量积注意力(TPA,Tensor Product Attention)机制。
图片
TPA独辟蹊径,在注意力计算时对QKV进行分解。和LoRA系列低秩分解方法不同,TPA会把QKV分别构建成与上下文相关的分解张量,能根据实际情况动态适应。

图片

而且,TPA仅缓存分解后的秩,合理设置参数就能让内存占用锐减90%甚至更多。
图片
更值得一提的是,TPA与流行的RoPE位置编码能无缝集成,能以低成本旋转分解KV,无需复杂调整。

图片
基于TPA,团队打造出全新模型T6。实验中,用FineWeb-Edu 100B数据集训练T6,其困惑度相比其他注意力设计更低。

图片


在ARC、BoolQ、HellaSwag和MMLU等基准测试里,T6的零样本和少样本性能出色,TPA和TPA-KVonly在多数任务中优于或追平所有基线。
图片

TPA的出现,为人工智能领域的发展开辟了新路径,有望推动更多高效能模型的诞生 。

论文由清华&上海期智研究员团队、UCLA顾全全团队合作,共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫。此外还有来自心动网络Taptap的Qin Zhen。

编辑:成蕴年

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部