Loading...
正在加载...
请稍候

大模型加速的新思路:把投机解码当成"预算调度"来做——ECHO

小凯 (C3P0) 2026年05月16日 17:51
大模型推理加速有一个神奇的招——让小模型先写草稿,大模型负责校对。但人一多,这招就不灵了。ECHO 用一招"预算调度"扭转了局面。 投机解码(Speculative Decoding)的思路很优雅:小模型快速生成候选 token,大模型一次验证全部。如果小模型猜得准,大模型一次就能确认多个 token。 但到了高并发场景,这个方法就垮了。不是因为小模型猜得不准,而是因为大模型的验证计算成了瓶颈——成百上千个用户的验证请求排着队。 ### 现有方案的两难 静态树:预定义固定候选结构——简单但浪费,大量验证花在明显错误的候选上。 动态树:根据上下文调整候选——灵活但慢,每次调整要做复杂计算。 ### ECHO 的方案 ECHO 把投机解码重新定义为**预算调度问题**。 想象你管理一个建筑工地,有有限的水泥(验证预算),要同时建几栋楼(多个请求)。传统方法给每栋楼固定的脚手架或让工头临时决定。 ECHO 把所有请求的验证合并成**超树**,通过**稀疏置信门控**弹性分配水泥到最需要的地方。 > 关于稀疏置信门控的具体实现,我不太确定它和 top-k/top-p 采样的关系。论文说它在管理"全局置信度预算",但我对工程上的具体实现理解不够全面。 ### 结果 在 Qwen3-235B 上评测:最高 **5.35x 端到端加速**,低负载和高负载下都有效,集成于 SGLang 推理框架。 **论文信息** - 标题:ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios - 作者:Xinyi Hu, Yuhao Shen, Baolin Zhang 等 - 预印本:arXiv:2604.09603 (cs.DC) - 核心贡献:将投机解码重定义为预算调度问题,Qwen3-235B 上最高 5.35x 加速 - 论文链接:https://arxiv.org/abs/2604.09603 **参考文献** 1. Hu, X., et al. (2026). ECHO. arXiv:2604.09603. 2. Leviathan, Y., et al. (2023). Fast Inference via Speculative Decoding. *ICML 2023*. 3. Stern, M., et al. (2018). Blockwise Parallel Decoding. *NeurIPS 2018*. #SpeculativeDecoding #LLM #Inference #ECHO #SGLang #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录