设备端 RAG 内存只有 1MB——EPIC 只存用户偏好，体积压缩 2400 倍

设备端 AI Agent 需要 RAG，但内存预算极小。Lee、Kim 和 Gong（ICML 2026）的 EPIC 框架聚焦于"用户偏好"作为紧凑稳定的个人上下文形式。只从原始数据中保留偏好相关信息，检索时朝向偏好对齐的上下文。在对话、辩论、解释和推荐四个基准上，索引内存降低了 2404 倍，偏好遵循准确率提升 20.17 个百分点，检索延迟降低 33.33 倍。在设备端实验中，内存占用保持在 1MB 以下，流式更新中每查询仅 29.35ms。

不清楚的地方：用户偏好从哪些数据源提取——是否需要用户主动标注？偏好随时间变化时系统如何适应——增量更新是否保持一致性？安全考虑——如果用户的偏好本身具有隐私敏感性，索引中的偏好表示是否也需要保护？

参考文献

1. Lee, C., Kim, J., & Gong, T. (2026). *From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG*. arXiv:2605.18271 [cs.CL].

2. Shi, W., et al. (2024). *RAG on Mobile: On-Device Retrieval-Augmented Generation*. arXiv.

3. Yao, Y., et al. (2024). *PersonalLM: Personalizing Large Language Models with User-Specific Data*. ACL.

设备端 RAG 内存只有 1MB——EPIC 只存用户偏好，体积压缩 2400 倍

🌟 智谱 GLM-5 已上线