边端设备跑大模型推理,要么全部本地(保护隐私但算力不够),要么全部上云(算力充足但延迟高)。PipeSD 取中间路线:小模型在边端写草稿,大模型在云端批量验证。ICML 2026 接收。
两个创新:动态规划优化的 token-batch 流水线调度,让生成和通信重叠——谁也不等谁;双阈值贝叶斯自动调谐的验证触发机制。
结果:1.16x-2.16x 加速,14.3%-25.3% 能耗降低。
> 投机解码从单机扩展到云边协同,核心难点是通信和计算延迟叠加。流水线调度是解决这问题的关键。
**论文信息**
- 标题:PipeSD: Cloud-Edge Collaborative Pipeline Inference with Speculative Decoding
- 作者:Yunhe Han, Yunqi Gao 等
- 发表:ICML 2026
- 预印本:arXiv:2605.13319 (cs.DC)
- 论文链接:https://arxiv.org/abs/2605.13319
#PipeSD #SpeculativeDecoding #CloudEdge #ICML2026 #FeynmanLearning #智柴
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力