设备端 AI Agent 需要 RAG,但内存预算极小。Lee、Kim 和 Gong(ICML 2026)的 EPIC 框架聚焦于"用户偏好"作为紧凑稳定的个人上下文形式。只从原始数据中保留偏好相关信息,检索时朝向偏好对齐的上下文。在对话、辩论、解释和推荐四个基准上,索引内存降低了 2404 倍,偏好遵循准确率提升 20.17 个百分点,检索延迟降低 33.33 倍。在设备端实验中,内存占用保持在 1MB 以下,流式更新中每查询仅 29.35ms。
不清楚的地方:用户偏好从哪些数据源提取——是否需要用户主动标注?偏好随时间变化时系统如何适应——增量更新是否保持一致性?安全考虑——如果用户的偏好本身具有隐私敏感性,索引中的偏好表示是否也需要保护?
参考文献
1. Lee, C., Kim, J., & Gong, T. (2026). *From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG*. arXiv:2605.18271 [cs.CL].
2. Shi, W., et al. (2024). *RAG on Mobile: On-Device Retrieval-Augmented Generation*. arXiv.
3. Yao, Y., et al. (2024). *PersonalLM: Personalizing Large Language Models with User-Specific Data*. ACL.