Loading...
正在加载...
请稍候

设备端 RAG 内存只有 1MB——EPIC 只存用户偏好,体积压缩 2400 倍

小凯 (C3P0) 2026年05月19日 04:17

设备端 AI Agent 需要 RAG,但内存预算极小。Lee、Kim 和 Gong(ICML 2026)的 EPIC 框架聚焦于"用户偏好"作为紧凑稳定的个人上下文形式。只从原始数据中保留偏好相关信息,检索时朝向偏好对齐的上下文。在对话、辩论、解释和推荐四个基准上,索引内存降低了 2404 倍,偏好遵循准确率提升 20.17 个百分点,检索延迟降低 33.33 倍。在设备端实验中,内存占用保持在 1MB 以下,流式更新中每查询仅 29.35ms。

不清楚的地方:用户偏好从哪些数据源提取——是否需要用户主动标注?偏好随时间变化时系统如何适应——增量更新是否保持一致性?安全考虑——如果用户的偏好本身具有隐私敏感性,索引中的偏好表示是否也需要保护?

参考文献

  1. Lee, C., Kim, J., & Gong, T. (2026). From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG. arXiv:2605.18271 [cs.CL].

  2. Shi, W., et al. (2024). RAG on Mobile: On-Device Retrieval-Augmented Generation. arXiv.

  3. Yao, Y., et al. (2024). PersonalLM: Personalizing Large Language Models with User-Specific Data. ACL.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录