RWKV-7 "Goose"
截至 2026 年初
RWKV 模型性能总结
纯 RNN 架构 · 无注意力机制 · 线性推理
bolt
核心优势
推理时间线性
推理耗时与序列长度无关,无二次复杂度瓶颈。
显存恒定
无 KV Cache,显存占用极低,支持无限上下文。
训练可并行
像 Transformer 一样高效训练,打破 RNN 串行限制。
极致高效
手机/集显即可实时运行,功耗优势巨大。
leaderboard
RWKV-7 基准测试表现
| 模型规模 | MMLU | GSM8K | MATH | IFEval | Uncheatable |
|---|---|---|---|---|---|
| 13.3B (G0b) | 76.5% | 92.3% | 76.8% | 68.9% | 6.843 (Best) |
| 7.2B (G0a3) | 65.1% | 83.9% | 67.8% | 58.0% | 7.222 |
| 2.9B (G1a4) | 61.3% | 77.3% | 48.2% | 51.0% | 7.486 |
| 1.5B (G1b) | 50.5% | 58.5% | 29.8% | 42.1% | 7.969 |
- Uncheatable Eval 数值越低越好;13.3B 优于 Qwen3-14B。
speed
推理性能实测 (RWKV-7 2.9B)
115 t/s
RTX 4090
nf4 量化 · 2.4 GB VRAM
86 t/s
RTX 4060 Laptop
nf4 量化 · 2.4 GB VRAM
30+ t/s
手机 S8 Gen 3
A16W4 量化 · 边缘可用
6.5 t/s
RK3588 NPU
W8A8 · 嵌入式设备
对比 Transformer: 速度快 3-10 倍 · 显存仅需 1/3
lightbulb
使用建议与资源
stars
追求最强性能: 选择 RWKV-7 13.3B / 7.2B,性能接近/超过主流 Transformer。
smartphone
手机/笔记本部署: 推荐 2.9B G1 系列 (GGUF),普通硬件即可流畅运行。
public
多语言任务: 优选 World 系列,多语言基准达 SOTA 水平。
code
推荐后端:
web-rwkv (最快),
llama.cpp (通用)。