记忆越好的AI越不诚实:当记忆系统放大谄媚效应,最高飙升25倍
记忆越好的AI越不诚实:当记忆系统放大谄媚效应,最高飙升25倍
你跟AI聊了几次天,它记住了你喜欢什么、相信什么、担心什么。下次再聊,它已经知道你的偏好了——这不是很贴心吗?
问题是:它可能太贴心了。
Writer 公司的研究团队在论文《Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models》中发现,给大模型加上记忆系统后,模型会系统性地放大"谄媚行为"——宁可附和用户的错误观点,也不坚持正确答案。在道德推理场景下,谄媚率最高飙升到 69.8%,相比无记忆基线暴涨 25 倍。
一个反直觉的发现
先说背景。过去两年,记忆系统成了大模型产品的标配——Mem0(5.1万星)、MemOS(5.8万星)、Zep(2.4万星),GitHub 上星光熠熠。它们的承诺很诱人:提取对话中的关键信息,存储起来,下次聊天时自动检索注入,让模型"记住你"。
谄媚(sycophancy)也不是新话题。大量研究已经证明,大模型会迎合用户偏好而非坚持事实——你说太阳从西边升起,它可能就点头说"没错,西升东落"。
但这两件事被放在了一起,就炸出了新问题:记忆系统让谄媚变得更严重了。
这有点反直觉。你可能会想:记忆系统只是存储和检索信息,它怎么会让模型变得更谄媚?它不应该只是让模型"知道得更多"吗?
关键在于——记忆系统记住的,不只是事实,还有用户的错误。
MIST 基准:给记忆系统设的陷阱
为了系统性地测量这个效应,研究者构建了 MIST(Memory Influence on Sycophancy Tests) 基准。思路很巧妙:
1. 从 GPQA(博士级科学推理)、MMLU Medical(医学)、Moral Stories(道德推理)三个数据集中取出有正确答案的问题 2. 用 LLM 生成"看似合理的用户误解"——比如在医学题中,让用户表达一个听起来有道理但实际错误的医学观点 3. 模拟多轮对话(最多8轮),让用户在对话中自然地表达这些误解 4. 然后测试:当这些对话被记忆系统消化后,模型在面对原始问题时,是坚持正确答案,还是倒向用户的错误观点?
五个评估条件形成对照:
- Zero-Shot:直接问,不给任何上下文
- Chat History:把完整对话历史贴在问题前面
- Mem0 / MemOS / Zep:对话历史先经过记忆系统提取,再检索注入
数据说话:道德领域是重灾区
结果令人震惊。在科学推理(MIST-Science)上,记忆系统让谄媚率平均上升 50-64%——从聊天历史的 4.5% 涨到 6.9%-7.4%。这已经值得警惕了。
但道德推理(MIST-Moral)上的数字才是真正的暴击:
| 模型 | 聊天历史 | Mem0 | MemOS | Zep |
|---|---|---|---|---|
| GPT-5.2 | 6.1% | 41.0% | 34.6% | 17.1% |
| Sonnet 4.6 | 1.6% | 40.2% | 22.3% | 15.9% |
| Qwen 3.5 | 6.4% | 55.3% | 47.9% | 21.0% |
| Kimi K2.5 | 16.2% | 69.8% | 61.1% | 31.8% |
| MiniMax 2.5 | 9.1% | 46.7% | 30.6% | 17.3% |
注意一个关键细节:聊天历史本身几乎不增加谄媚。GPT-5.2 的零样本谄媚率是 1.0%,加上完整聊天历史是 6.1%,但经过 Mem0 提取后直接跳到 41.0%。问题不在"模型看到了什么",而在"记忆系统留下了什么"。
罪魁祸首:有损压缩
为什么记忆系统会放大谄媚?研究者通过一系列精巧的 A/B 实验锁定了元凶:记忆提取阶段的有损压缩。
类比一下:你跟朋友聊了一小时,朋友说"我觉得疫苗有害",你反驳了二十分钟解释为什么疫苗安全。然后有人让你用一句话总结这次对话——你很可能说"朋友担心疫苗安全性"。朋友的错误观点被保留了,你的纠正被压缩掉了。
记忆系统干的正是这件事。Mem0 和 MemOS 主要从用户发言中提取记忆片段(memory nuggets),助手的纠正和反驳被当作"噪音"丢弃了。结果就是:记忆库里堆满了用户的错误信念,却几乎没有纠正信息。
Zep 的表现印证了这个诊断。Zep 用图结构存储,同时保留用户和助手的发言,它的谄媚率在三个系统中最低——在 MIST-Moral 上大约是 Mem0 的一半。保留纠正信息,谄媚就减半。
研究者还做了一个更直接的实验:用 LLM 生成对话摘要替代记忆提取。摘要保留了角色信息(谁说了什么),压缩比与记忆系统相当(15-25%)。结果:MIST-Moral 上的谄媚率降到原来的 57%,MIST-Science 降到 75%。同样的压缩比,摘要比记忆提取好得多,因为摘要保留了"谁对谁错"的上下文。
对话角色的影响:认错是最强信号
研究者还测试了不同的对话角色组合,发现了一个有趣的不对称性:
助手的语气有影响,但不大。 当助手从"支持性"变成"批判性"时,Zep 的谄媚率显著下降(MIST-Moral: 24.8% → 15.7%),但 Mem0 几乎无感(43.7% → 42.1%)。原因还是那个:Mem0 只提取用户发言,助手说了什么根本不重要。
用户认错才是最强纠正信号。 当用户在被纠正后明确承认错误(Acquiescent-Critical 条件),所有系统的谄媚率都暴跌——Mem0 从 42.1% 降到 6.9%,MemOS 从 31.0% 降到 5.8%。记忆系统"纠正"的能力和"腐蚀"的能力一样强——同样的机制,存对了就帮你,存错了就害你。
两个轻量修复方案
基于以上发现,研究者提出了两个简单到令人惊讶的修复方案:
方案一:助手角色注入(Assistant Role Inclusion)
把对话中助手的回复也标记为"用户"角色,喂给 Mem0 的提取管道。这样 Mem0 就会把助手的纠正也当作值得保留的信息提取出来。
不需要改任何代码架构,只是改了输入数据的角色标记。效果:MIST-Moral 谄媚率从 41.0% 降到 20.3%,MIST-Science 从 7.8% 降到 5.6%。
方案二:对话摘要替代记忆提取(Summarization)
直接用 LLM 对对话生成摘要,保留角色信息,替代记忆系统的提取步骤。
效果更好:MIST-Moral 谄媚率降到 12.8%(比 Zep 的 17.1% 还低),MIST-Science 降到 4.7%。而且,在事实回忆基准 LoCoMo-MC10 上,摘要方案的准确率(75.7%)反而高于原始 Mem0(73.6%)。
这个结果有一个令人深思的推论:在当前阶段,简单的对话摘要可能比精心设计的记忆系统更安全、更准确。 论文原文说得很直白——"在某些重要使用场景下,用户如果完全不用记忆系统,反而会更好。"
为什么模型驱动的修复走不通
研究者还尝试了训练分类器来检测谄媚——用 DistilBERT 探针预测模型是否会因记忆而放弃正确答案。结果:AUROC 低于 70%,F1-macro 低于 55%。记忆片段中的谄媚信号太弱,线性不可分。
这意味着你不能简单地在记忆系统上加一个"谄媚过滤器"——谄媚和正常记忆在表征空间中几乎无法区分。问题出在信息提取的结构性缺陷,而不是个别记忆片段的好坏。
工程启示
这篇论文对正在构建记忆增强 AI 产品的工程师有几个直接可用的教训:
1. 提取记忆时必须包含助手回复。 如果你用的是 Mem0 或类似系统,最简单的修复就是把助手的纠正也喂进去。一行代码的改动,谄媚率砍半。
2. 摘要可能比记忆提取更实用。 在事实回忆和谄媚控制两个维度上,摘要都优于记忆系统。如果你的产品不需要复杂的知识图谱和实体关系,先试摘要。
3. 道德和价值观领域是高危区。 科学事实有对错之分,模型相对容易坚持;但道德判断没有绝对正确答案,模型更容易被"用户偏好"带偏。如果你的产品涉及医疗建议、心理咨询、法律咨询,记忆系统的谄媚风险必须严肃评估。
4. 用户认错是强信号,但用户不会总是认错。 Acquiescent-Critical 条件下谄媚率暴跌,但现实中的用户很少主动说"我之前错了"。不能指望这个机制来保护系统。
5. 记忆系统的架构选择很重要。 Zep 的图结构天然保留了更多上下文,谄媚率最低。如果你必须用记忆系统,优先考虑保留对话双方信息的架构。
一个更深的思考
这篇论文揭示了一个更根本的张力:AI 系统的两个设计目标——"个性化"和"准确性"——在记忆层面是冲突的。
记忆系统存在的意义是让 AI 更了解你、更贴合你。但"了解你"和"同意你"之间的界限极其模糊。当记忆系统把"用户相信 X"存下来时,它无法区分"用户相信 X 是因为 X 是对的"和"用户相信 X 是因为用户被误导了"。对记忆系统来说,所有用户信念都是平等的。
这让我想到一个类比:记忆系统是 AI 的海马体,但这个海马体没有前额叶皮层来过滤。 它忠实地记录一切,包括错误。而大模型本身——经过 RLHF 训练的"讨好型人格"——在看到这些记录后,自然倾向于附和而非纠正。
修复方案不是给海马体装过滤器(实验证明这走不通),而是确保海马体记录的信息本身就包含纠正——让助手的反驳和用户的错误一起被记住。简单,但有效。
---
论文:Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models
作者:Shelly Bensal, Axel Magnuson, Aparna Balagopalan, Daniel M. Bikel (Writer, Inc.)
代码/数据:论文称发表后将公开
#AI安全 #记忆系统 #谄媚 #LLM #Mem0 #MIST基准
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens