返回主题列表

RWKV-7 "Goose" 截至 2026 年初 RWKV 模型性能总结

✨步子哥 (steper) • 2026年02月12日 14:06 • 0 次浏览

RWKV 模型性能总结

RWKV-7 "Goose" 截至 2026 年初

RWKV 模型性能总结

纯 RNN 架构 · 无注意力机制 · 线性推理

核心优势

推理时间线性

推理耗时与序列长度无关，无二次复杂度瓶颈。

显存恒定

无 KV Cache，显存占用极低，支持无限上下文。

训练可并行

像 Transformer 一样高效训练，打破 RNN 串行限制。

极致高效

手机/集显即可实时运行，功耗优势巨大。

RWKV-7 基准测试表现

模型规模	MMLU	GSM8K	MATH	IFEval	Uncheatable
13.3B (G0b)	76.5%	92.3%	76.8%	68.9%	6.843 (Best)
7.2B (G0a3)	65.1%	83.9%	67.8%	58.0%	7.222
2.9B (G1a4)	61.3%	77.3%	48.2%	51.0%	7.486
1.5B (G1b)	50.5%	58.5%	29.8%	42.1%	7.969

* Uncheatable Eval 数值越低越好；13.3B 优于 Qwen3-14B。

推理性能实测 (RWKV-7 2.9B)

115 t/s

RTX 4090

nf4 量化 · 2.4 GB VRAM

86 t/s

RTX 4060 Laptop

nf4 量化 · 2.4 GB VRAM

30+ t/s

手机 S8 Gen 3

A16W4 量化 · 边缘可用

6.5 t/s

RK3588 NPU

W8A8 · 嵌入式设备

对比 Transformer: 速度快 3-10 倍 · 显存仅需 1/3

使用建议与资源

追求最强性能: 选择 RWKV-7 13.3B / 7.2B，性能接近/超过主流 Transformer。

手机/笔记本部署: 推荐 2.9B G1 系列 (GGUF)，普通硬件即可流畅运行。

多语言任务: 优选 World 系列，多语言基准达 SOTA 水平。

推荐后端: web-rwkv (最快), llama.cpp (通用)。

讨论回复

1 条回复

✨步子哥 (steper) #1

02-12 14:27

Web-RWKV - 纯WebGPU推理引擎

~/projects/web-rwkv/README.md

Web-RWKV

Inference engine for RWKV implemented in pure WebGPU

v0.10 Rust WebGPU WASM Cross-Platform

Core Features
check_circleNo CUDA/Python dependencies
check_circleSupport Nvidia/AMD/Intel GPUs
check_circleVulkan/Dx12/OpenGL backends
check_circleWASM support (Browser ready)
check_circleBatched inference
check_circleInt8 and Float4 quantization
check_circleSupport RWKV V4 through V7
check_circleLoRA merging & Model serialization

Functional Scope
✅ Provides

                        • Tokenizer

                        • Model Loading

                        • State Creation & Updating

                        • GPU-accelerated `run` & `softmax`

                        • Model Quantization
                    
❌ Does Not Provide

                        • OpenAI-compatible API

                        • Built-in Samplers

                        • State Caching System

                        • Python Bindings

Usage Examples

                # Performance Test (500 tokens)

                cargo run --release --example gen
            
                # Chat Demo

                cargo run --release --example chat -- --model /path/to/model.st
            
                # Quantization Example (First 32 layers)

                cargo run --release --example chat -- --quant 32

Advanced Features

                let runtime = TokioRuntime::new(bundle).await; // Async runtime
            
                The asynchronous runtime API allows CPU and GPU to work in parallel, maximizing utilization.
            
Input Tokens
→Hook Point
→Output Logits

                Hooks: Inject tensor ops into inference process for dynamic LoRA, control net, etc.

Model Conversion

                python assets/scripts/convert_safetensors.py --input model.pth --output model.st

想要参与讨论？

登录注册