+关注

手机看

微信扫一扫，随时随地看

RWKV-7 引入广义 Delta Rule，表达力超越 Transformer

wisemodel开源社区

2025-03-23 18:00始智AI wisemodel官方账号

+关注

AI划重点 · 全文约3923字，阅读需12分钟

1.始智AI wisemodel.cn开源社区发布了RWKV-7架构，其在计算效率、任务表现和模型表达力上全面超越Transformer和过去的RWKV-6架构。

2.RWKV-7通过引入广义Delta Rule作为隐藏状态的演化机制，使用2层即可实现复杂度的状态跟踪问题，使用4层即可识别所有正则语言。

3.除此之外，RWKV-7在长文本建模能力、状态追踪能力和多模态能力等方面表现出色。

4.目前，RWKV-7-G1系列模型已上线始智AI-wisemodel开源社区，欢迎体验。

5.未来，RWKV-7将继续探索训练思维链推理模型、测试DeepSeek报告中的技术等方面的研发。

以上内容由腾讯混元大模型生成，仅供参考

始智AI wisemodel.cn开源社区

RWKV-7 通过一系列创新（例如广义 Delta Rule），在计算效率、任务表现和模型表达力全面超越 Transformer 和过去的 RWKV-6 架构。

在训练数据远低于 Qwen2.5、Llama3.2 等开源模型的前提下，RWKV-7-World 模型的语言建模能力在所有开源 3B 规模模型中达到 SoTA 水平。

通过引入广义 Delta Rule，RWKV-7 使用 2 层即可实现 复杂度的 状态跟踪问题，使用 4 层即可识别所有正则语言，表达力显著超越了 Transformers 的限制。最新版RWKV-7 模型已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

RWKV-7 G1：

https://wisemodel.cn/models/rwkv4fun/RWKV-7-G1

RWKV-7 World：

https://wisemodel.cn/models/rwkv4fun/rwkv-7-world

01.

RWKV-7 架构概述

RWKV-7 的核心机制是引入并优化广义 Delta Rule 作为 RWKV-7 隐藏状态的演化机制（State Evolution）:

RWKV-7 的广义 Delta Rule 包含多个优化：

向量化门控（Vector-Valued State Gating）：增加向量级的 State Gating 门控机制，使模型在序列建模时更具表现力。
向量化学习率（Vector-Valued In-Context Learning Rate）：使从标量扩展为向量，使模型能够按通道选择性地替换状态数据，提高灵活性。
分离 Delta Rule 的删除和添加机制：RWKV-7 允许不同的通道独立删除和添加状态信息，增强模型对状态信息的操控能力。

RWKV-7 架构图概览：

时间混合模块（演化机制）

RWKV-7 架构中的时间混合（Time Mix）反映了 RWKV-7 的多头矩阵值状态（Weighted Key Value）的动态演化过程。

递归形式的计算公式：

其中是“上下文权重衰减”，是“上下文学习率”（in-context learning rate，ICLR）。

原始的 delta rule 公式在每个时间步移除旧值，移除的程度由标量控制。RWKV-7 将定义为向量，允许每个状态通道有不同的移除量，增强对状态信息的操控能力。

下图是 RWKV-7 的 state 动态更新机制图示。注意图中 4×4 的 state 仅为演示，实际每个小模型的 state 矩阵是 64×64。

通过动态计算更新 state，RWKV-7 可以从上下文动态学习 key 和 value 之间的关系，使用更新后的 state 处理新的输入，得到最准确的输出。

对比 RWKV-6 的架构改进

下图为 RWKV-6 的架构图概览，橙色标记是 RWKV-7 相对 RWKV-6 的主要改动部分：

通道混合层（channel mixing）优化

移除 RWKV-6 的 Receptance Gating （门控矩阵），改为普通双层 ReLU^2 MLP，减少了计算复杂度：

时间混合层（time mixing）优化

RWKV-6 引入动态数据依赖的 Token-Shift，RWKV-7 为提高训练和推理速度，移除了 Token-Shift 的动态数据依赖，回归 RWKV-4 和 RWKV-5 风格的简单Token-Shift。具体设计思路请参考论文附录 F Additional Architecture Discussion

低秩投影（Low-Rank Projection）优化

新增参数（in-context learning rate）及对应的低秩 MLP，新增的残差控制低秩 MLP，将参数变为低秩 MLP。

02.

评估实验

我们进行了多个实验以评估 RWKV-7 的各项性能，所有的测试均使用 fp32 精度。同时，除了 MMLU 使用 5-shot 外，其他测试均使用 0-shot。

英语及多语言能力测试

RWKV-7 模型基于 LM Evaluation Harness（lm-eval v0.4.3）进行了一系列常见的英语和多语言基准评估，且与前沿开源模型进行了对比。

结果显示，RWKV-7 仅使用前沿模型 (如 Qwen2.5) 的三分之一训练数据，即能在英语能力看齐前沿模型，且多语言能力显著更强。

Uncheatable Eval（无法作弊的压缩率测试）

为了避免数据泄露造成的评估指标失效，我们进行了 Uncheatable Eval —— 使用最新的论文和新闻文章等实时数据，评估开源大语言模型的真实建模能力和泛化能力。

我们使用 2025 年 1 月之后最新数据对所有模型进行测试，结果显示 RWKV-7 在同等参数大小的前沿模型中依然具有强竞争力。

我们正在训练数据更多的 RWKV7-G1 系列模型，目标是在这个榜单同样超越所有其他前沿模型。

Associative Recall（联想记忆力）

Associative Recall 用于评估模型在给定上下文中回忆起先前遇到的信息的能力。

以下表格是不同权重矩阵大小的 RWKV-7 在不同输入长度和键值对大小的回忆能力，表中数字为具体的百分比，打勾 ✓ 项意味着回忆率大于 99%。

状态维度仅为 8192 时，RWKV-7 就能回忆起【序列长度2048 + 256个键值对】的 72.93% 信息，可见其状态效率极高。

长文本测试

我们以常用的长文本数据集 PG19 作为指标，测试 RWKV 模型在长文本的语言建模能力，loss 越低越好。

在 0.1B Pile 模型的对比测试显示，RWKV-7-Pile 的长文本建模能力显著强于前几代模型（RWKV-4/6）以及 Mamba 1/2 模型。

这里的所有 Pile 模型基于相同的数据集和分词器，因此是在模型架构层面的公平对比。

进一步的实验表明，在长上下文数据进行微调，可进一步增强 RWKV-7 的长上下文能力。

使用 128k 上下文数据微调后的 RWKV-7-2.9B-128k-tuned 模型，在 10k 以上的上下文长度表现比 RWKV-7 base model 显著提升：

状态追踪能力

Group Multiplication 是广受认可的状态追踪能力评估方法，主流测试方法是找出模型在进行群乘法任务（group multiplication task）时超过 95% 准确率所需的最小层数。

以下是 RWKV-7 相较于其他架构的状态追踪能力对比。RWKV-7 最多只需两层就可以追踪很长的状态序列，尽管比经典 RNNs 稍弱，但相较于 Trasnsformer、Mamba 和 S4 均显著更强（它们都需要使用越来越多层的模型才能完成这个任务）：

经典 RNN 的状态追踪能力强，但难以并行训练，且存在梯度消失和长文本建模能力缺陷。

VisualRWKV

RWKV-7 也强化了多模态能力，在使用相同视觉编码器的条件下，0.1B 的 VisualRWKV-7 在 VQA GQA 任务的视觉理解能力就超过了 1.6B 的 VisualRWKV-6 模型。

03.

更多架构和训练细节

我们使用 D 表示模型维度数，L 表示层数，下表是 RWKV-7 各个模型的参数信息：

Model Name	L	D	State Size(WKV+ Shift)	Parameters
RWKV7-World3-0.1B	12	768	589824+ 18432	191034624
RWKV7-World3-0.4B	24	1024	1572864+ 49152	450767872
RWKV7-World3-1.5B	24	2048	3145728+ 98304	1527404544
RWKV7-World3-2.9B	32	2560	5242880+ 163840	2947735040

RWKV-7 模型参数计算公式：

RWKV-7 的详细架构图：

更多架构和训练细节，详见论文附录 E Additional Architectural and Training Details

04.

训练数据集组成

RWKV World v3 数据集在 RWKV World v2 数据集的基础上进行了扩展，总数据量增大到约 3.1T Tokens，所有数据都被赋予了相等的权重。

对于 World v2 的部分子数据集中占比过高的语言，我们进行了一些采样。v2.1 和 v3 版本中所有新添加的数据都被赋予相等的权重。

RWKV World v3 数据细节，详见论文附录 B Training Dataset Details

05.

消融实验

为了验证 RWKV-7 架构改进的有效性，我们在 MiniPile 数据集上进行了消融实验。

以下的实验结果展示了 RWKV-7 各项改进的有效性：

消融实验，详见论文附录 K Ablation Experiments

06.

四层 RWKV-7 识别任意正则语言

正则语言指的是那些可以被 DFA（确定性有限自动机）识别的语言，要证明 RWKV-7 可以识别任意正则语言，只需要证明其可以模拟任意 DFA 即可。

我们通过推导使用 RWKV-7 的第一层压缩 DFA 转移矩阵，和使用最后一层的 wkv 头来实现转移矩阵，能够达成的效果，证明了四层 RWKV-7 即可识别任意正则语言，表达力显著强于 Transformer。详见论文附录 D.2 Main Result: RWKV-7 Can Recognize Any Regular Language ， D.3 Detailed Proof of Theorem 3

07.

状态可视化

RWKV-7 的 WKV 状态矩阵的 RMS（均方根）值显著低于 RWKV-5 和 RWKV-6。RWKV-7 的 WKV 矩阵元素始终保持在O (1) 量级（即无异常值，且不随上下文长度增长），而 RWKV-5 和 RWKV-6 则可能产生千数量级的极端值。

这表明 RWKV-7 在训练和推理过程中具有更优的数值稳定性：

状态可视化检查，详见论文附录 J State Inspections

08.

未来工作

未来 RWKV-7 的工作包括，收集更多的数据以训练更大的模型，探索训练思维链推理（Chain-of-Thought Reasoning）模型，测试 DeepSeek 报告中提及的技术（例如 Mixture-of-Experts, Multi-Token Prediction 以及 FP8 Training），以及 RWKV 后续版本的研发。RWKV-7 论文地址：https://arxiv.org/abs/2503.14456

----- END -----

关于wisemodel更多

欢迎持续关注和支持

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。