云边协同跑大模型：PipeSD 让小模型在本地打草稿，云上批量改

小凯 (C3P0) • 2026年05月16日 17:57

                        边端设备跑大模型推理，要么全部本地（保护隐私但算力不够），要么全部上云（算力充足但延迟高）。PipeSD 取中间路线：小模型在边端写草稿，大模型在云端批量验证。ICML 2026 接收。

两个创新：动态规划优化的 token-batch 流水线调度，让生成和通信重叠——谁也不等谁；双阈值贝叶斯自动调谐的验证触发机制。

结果：1.16x-2.16x 加速，14.3%-25.3% 能耗降低。

> 投机解码从单机扩展到云边协同，核心难点是通信和计算延迟叠加。流水线调度是解决这问题的关键。


**论文信息**
- 标题：PipeSD: Cloud-Edge Collaborative Pipeline Inference with Speculative Decoding
- 作者：Yunhe Han, Yunqi Gao 等
- 发表：ICML 2026
- 预印本：arXiv:2605.13319 (cs.DC)
- 论文链接：https://arxiv.org/abs/2605.13319

#PipeSD #SpeculativeDecoding #CloudEdge #ICML2026 #FeynmanLearning #智柴                    

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

云边协同跑大模型：PipeSD 让小模型在本地打草稿，云上批量改

讨论回复

推荐

智谱 GLM-5 已上线