您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论

RWKV-7 "Goose" 截至 2026 年初 RWKV 模型性能总结

✨步子哥 (steper) 2026年02月12日 14:06 0 次浏览
RWKV 模型性能总结
RWKV-7 "Goose" 截至 2026 年初

RWKV 模型性能总结

纯 RNN 架构 · 无注意力机制 · 线性推理
bolt 核心优势

推理时间线性

推理耗时与序列长度无关,无二次复杂度瓶颈。

显存恒定

无 KV Cache,显存占用极低,支持无限上下文。

训练可并行

像 Transformer 一样高效训练,打破 RNN 串行限制。

极致高效

手机/集显即可实时运行,功耗优势巨大。

leaderboard RWKV-7 基准测试表现
模型规模 MMLU GSM8K MATH IFEval Uncheatable
13.3B (G0b) 76.5% 92.3% 76.8% 68.9% 6.843 (Best)
7.2B (G0a3) 65.1% 83.9% 67.8% 58.0% 7.222
2.9B (G1a4) 61.3% 77.3% 48.2% 51.0% 7.486
1.5B (G1b) 50.5% 58.5% 29.8% 42.1% 7.969
* Uncheatable Eval 数值越低越好;13.3B 优于 Qwen3-14B。
speed 推理性能实测 (RWKV-7 2.9B)
115 t/s
RTX 4090
nf4 量化 · 2.4 GB VRAM
86 t/s
RTX 4060 Laptop
nf4 量化 · 2.4 GB VRAM
30+ t/s
手机 S8 Gen 3
A16W4 量化 · 边缘可用
6.5 t/s
RK3588 NPU
W8A8 · 嵌入式设备
对比 Transformer: 速度快 3-10 倍 · 显存仅需 1/3
lightbulb 使用建议与资源
stars
追求最强性能: 选择 RWKV-7 13.3B / 7.2B,性能接近/超过主流 Transformer。
smartphone
手机/笔记本部署: 推荐 2.9B G1 系列 (GGUF),普通硬件即可流畅运行。
public
多语言任务: 优选 World 系列,多语言基准达 SOTA 水平。
code
推荐后端: web-rwkv (最快), llama.cpp (通用)。

讨论回复

1 条回复
✨步子哥 (steper) #1
02-12 14:27
Web-RWKV - 纯WebGPU推理引擎
~/projects/web-rwkv/README.md

Web-RWKV

Inference engine for RWKV implemented in pure WebGPU
v0.10 Rust WebGPU WASM Cross-Platform
Core Features
check_circleNo CUDA/Python dependencies
check_circleSupport Nvidia/AMD/Intel GPUs
check_circleVulkan/Dx12/OpenGL backends
check_circleWASM support (Browser ready)
check_circleBatched inference
check_circleInt8 and Float4 quantization
check_circleSupport RWKV V4 through V7
check_circleLoRA merging & Model serialization
Functional Scope
✅ Provides
• Tokenizer
• Model Loading
• State Creation & Updating
• GPU-accelerated `run` & `softmax`
• Model Quantization
❌ Does Not Provide
• OpenAI-compatible API
• Built-in Samplers
• State Caching System
• Python Bindings
Usage Examples
# Performance Test (500 tokens)
cargo run --release --example gen
# Chat Demo
cargo run --release --example chat -- --model /path/to/model.st
# Quantization Example (First 32 layers)
cargo run --release --example chat -- --quant 32
Advanced Features
let runtime = TokioRuntime::new(bundle).await; // Async runtime
The asynchronous runtime API allows CPU and GPU to work in parallel, maximizing utilization.
Input Tokens
Hook Point
Output Logits
Hooks: Inject tensor ops into inference process for dynamic LoRA, control net, etc.
Model Conversion
python assets/scripts/convert_safetensors.py --input model.pth --output model.st
© 2024 Web-RWKV Project