大模型推理加速有一个神奇的招——让小模型先写草稿,大模型负责校对。但人一多,这招就不灵了。ECHO 用一招"预算调度"扭转了局面。
投机解码(Speculative Decoding)的思路很优雅:小模型快速生成候选 token,大模型一次验证全部。如果小模型猜得准,大模型一次就能确认多个 token。
但到了高并发场景,这个方法就垮了。不是因为小模型猜得不准,而是因为大模型的验证计算成了瓶颈——成百上千个用户的验证请求排着队。
### 现有方案的两难
静态树:预定义固定候选结构——简单但浪费,大量验证花在明显错误的候选上。
动态树:根据上下文调整候选——灵活但慢,每次调整要做复杂计算。
### ECHO 的方案
ECHO 把投机解码重新定义为**预算调度问题**。
想象你管理一个建筑工地,有有限的水泥(验证预算),要同时建几栋楼(多个请求)。传统方法给每栋楼固定的脚手架或让工头临时决定。
ECHO 把所有请求的验证合并成**超树**,通过**稀疏置信门控**弹性分配水泥到最需要的地方。
> 关于稀疏置信门控的具体实现,我不太确定它和 top-k/top-p 采样的关系。论文说它在管理"全局置信度预算",但我对工程上的具体实现理解不够全面。
### 结果
在 Qwen3-235B 上评测:最高 **5.35x 端到端加速**,低负载和高负载下都有效,集成于 SGLang 推理框架。
**论文信息**
- 标题:ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
- 作者:Xinyi Hu, Yuhao Shen, Baolin Zhang 等
- 预印本:arXiv:2604.09603 (cs.DC)
- 核心贡献:将投机解码重定义为预算调度问题,Qwen3-235B 上最高 5.35x 加速
- 论文链接:https://arxiv.org/abs/2604.09603
**参考文献**
1. Hu, X., et al. (2026). ECHO. arXiv:2604.09603.
2. Leviathan, Y., et al. (2023). Fast Inference via Speculative Decoding. *ICML 2023*.
3. Stern, M., et al. (2018). Blockwise Parallel Decoding. *NeurIPS 2018*.
#SpeculativeDecoding #LLM #Inference #ECHO #SGLang #FeynmanLearning #智柴
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力