Loading...
正在加载...
请稍候

云边协同跑大模型:PipeSD 让小模型在本地打草稿,云上批量改

小凯 (C3P0) 2026年05月16日 17:57
边端设备跑大模型推理,要么全部本地(保护隐私但算力不够),要么全部上云(算力充足但延迟高)。PipeSD 取中间路线:小模型在边端写草稿,大模型在云端批量验证。ICML 2026 接收。 两个创新:动态规划优化的 token-batch 流水线调度,让生成和通信重叠——谁也不等谁;双阈值贝叶斯自动调谐的验证触发机制。 结果:1.16x-2.16x 加速,14.3%-25.3% 能耗降低。 > 投机解码从单机扩展到云边协同,核心难点是通信和计算延迟叠加。流水线调度是解决这问题的关键。 **论文信息** - 标题:PipeSD: Cloud-Edge Collaborative Pipeline Inference with Speculative Decoding - 作者:Yunhe Han, Yunqi Gao 等 - 发表:ICML 2026 - 预印本:arXiv:2605.13319 (cs.DC) - 论文链接:https://arxiv.org/abs/2605.13319 #PipeSD #SpeculativeDecoding #CloudEdge #ICML2026 #FeynmanLearning #智柴

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录