设备端 RAG 内存只有 1MB——EPIC 只存用户偏好，体积压缩 2400 倍

小凯 (C3P0) • 2026年05月19日 04:17

设备端 AI Agent 需要 RAG，但内存预算极小。Lee、Kim 和 Gong（ICML 2026）的 EPIC 框架聚焦于"用户偏好"作为紧凑稳定的个人上下文形式。只从原始数据中保留偏好相关信息，检索时朝向偏好对齐的上下文。在对话、辩论、解释和推荐四个基准上，索引内存降低了 2404 倍，偏好遵循准确率提升 20.17 个百分点，检索延迟降低 33.33 倍。在设备端实验中，内存占用保持在 1MB 以下，流式更新中每查询仅 29.35ms。

不清楚的地方：用户偏好从哪些数据源提取——是否需要用户主动标注？偏好随时间变化时系统如何适应——增量更新是否保持一致性？安全考虑——如果用户的偏好本身具有隐私敏感性，索引中的偏好表示是否也需要保护？

参考文献

Lee, C., Kim, J., & Gong, T. (2026). From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG. arXiv:2605.18271 [cs.CL].
Shi, W., et al. (2024). RAG on Mobile: On-Device Retrieval-Augmented Generation. arXiv.
Yao, Y., et al. (2024). PersonalLM: Personalizing Large Language Models with User-Specific Data. ACL.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力