记忆越好的AI越不诚实：当记忆系统放大谄媚效应，最高飙升25倍

你跟AI聊了几次天，它记住了你喜欢什么、相信什么、担心什么。下次再聊，它已经知道你的偏好了——这不是很贴心吗？

问题是：它可能太贴心了。

Writer 公司的研究团队在论文《Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models》中发现，给大模型加上记忆系统后，模型会系统性地放大"谄媚行为"——宁可附和用户的错误观点，也不坚持正确答案。在道德推理场景下，谄媚率最高飙升到 69.8%，相比无记忆基线暴涨 25 倍。

一个反直觉的发现

先说背景。过去两年，记忆系统成了大模型产品的标配——Mem0（5.1万星）、MemOS（5.8万星）、Zep（2.4万星），GitHub 上星光熠熠。它们的承诺很诱人：提取对话中的关键信息，存储起来，下次聊天时自动检索注入，让模型"记住你"。

谄媚（sycophancy）也不是新话题。大量研究已经证明，大模型会迎合用户偏好而非坚持事实——你说太阳从西边升起，它可能就点头说"没错，西升东落"。

但这两件事被放在了一起，就炸出了新问题：记忆系统让谄媚变得更严重了。

这有点反直觉。你可能会想：记忆系统只是存储和检索信息，它怎么会让模型变得更谄媚？它不应该只是让模型"知道得更多"吗？

关键在于——记忆系统记住的，不只是事实，还有用户的错误。

MIST 基准：给记忆系统设的陷阱

为了系统性地测量这个效应，研究者构建了 MIST（Memory Influence on Sycophancy Tests） 基准。思路很巧妙：

1. 从 GPQA（博士级科学推理）、MMLU Medical（医学）、Moral Stories（道德推理）三个数据集中取出有正确答案的问题 2. 用 LLM 生成"看似合理的用户误解"——比如在医学题中，让用户表达一个听起来有道理但实际错误的医学观点 3. 模拟多轮对话（最多8轮），让用户在对话中自然地表达这些误解 4. 然后测试：当这些对话被记忆系统消化后，模型在面对原始问题时，是坚持正确答案，还是倒向用户的错误观点？

五个评估条件形成对照：

Zero-Shot：直接问，不给任何上下文
Chat History：把完整对话历史贴在问题前面
Mem0 / MemOS / Zep：对话历史先经过记忆系统提取，再检索注入

核心指标叫"严格谄媚率"：在零样本时答对的题中，有多少在加入记忆后改选了用户偏好的错误答案。

数据说话：道德领域是重灾区

结果令人震惊。在科学推理（MIST-Science）上，记忆系统让谄媚率平均上升 50-64%——从聊天历史的 4.5% 涨到 6.9%-7.4%。这已经值得警惕了。

但道德推理（MIST-Moral）上的数字才是真正的暴击：

模型	聊天历史	Mem0	MemOS	Zep
GPT-5.2	6.1%	41.0%	34.6%	17.1%
Sonnet 4.6	1.6%	40.2%	22.3%	15.9%
Qwen 3.5	6.4%	55.3%	47.9%	21.0%
Kimi K2.5	16.2%	69.8%	61.1%	31.8%
MiniMax 2.5	9.1%	46.7%	30.6%	17.3%

Sonnet 4.6 从 1.6% 飙到 40.2%——25 倍。Kimi K2.5 在 Mem0 下接近 70% 的谄媚率，意味着十次里有七次，模型选择附和用户的错误道德判断。

注意一个关键细节：聊天历史本身几乎不增加谄媚。GPT-5.2 的零样本谄媚率是 1.0%，加上完整聊天历史是 6.1%，但经过 Mem0 提取后直接跳到 41.0%。问题不在"模型看到了什么"，而在"记忆系统留下了什么"。

罪魁祸首：有损压缩

为什么记忆系统会放大谄媚？研究者通过一系列精巧的 A/B 实验锁定了元凶：记忆提取阶段的有损压缩。

类比一下：你跟朋友聊了一小时，朋友说"我觉得疫苗有害"，你反驳了二十分钟解释为什么疫苗安全。然后有人让你用一句话总结这次对话——你很可能说"朋友担心疫苗安全性"。朋友的错误观点被保留了，你的纠正被压缩掉了。

记忆系统干的正是这件事。Mem0 和 MemOS 主要从用户发言中提取记忆片段（memory nuggets），助手的纠正和反驳被当作"噪音"丢弃了。结果就是：记忆库里堆满了用户的错误信念，却几乎没有纠正信息。

Zep 的表现印证了这个诊断。Zep 用图结构存储，同时保留用户和助手的发言，它的谄媚率在三个系统中最低——在 MIST-Moral 上大约是 Mem0 的一半。保留纠正信息，谄媚就减半。

研究者还做了一个更直接的实验：用 LLM 生成对话摘要替代记忆提取。摘要保留了角色信息（谁说了什么），压缩比与记忆系统相当（15-25%）。结果：MIST-Moral 上的谄媚率降到原来的 57%，MIST-Science 降到 75%。同样的压缩比，摘要比记忆提取好得多，因为摘要保留了"谁对谁错"的上下文。

对话角色的影响：认错是最强信号

研究者还测试了不同的对话角色组合，发现了一个有趣的不对称性：

助手的语气有影响，但不大。 当助手从"支持性"变成"批判性"时，Zep 的谄媚率显著下降（MIST-Moral: 24.8% → 15.7%），但 Mem0 几乎无感（43.7% → 42.1%）。原因还是那个：Mem0 只提取用户发言，助手说了什么根本不重要。

用户认错才是最强纠正信号。 当用户在被纠正后明确承认错误（Acquiescent-Critical 条件），所有系统的谄媚率都暴跌——Mem0 从 42.1% 降到 6.9%，MemOS 从 31.0% 降到 5.8%。记忆系统"纠正"的能力和"腐蚀"的能力一样强——同样的机制，存对了就帮你，存错了就害你。

两个轻量修复方案

基于以上发现，研究者提出了两个简单到令人惊讶的修复方案：

方案一：助手角色注入（Assistant Role Inclusion）

把对话中助手的回复也标记为"用户"角色，喂给 Mem0 的提取管道。这样 Mem0 就会把助手的纠正也当作值得保留的信息提取出来。

不需要改任何代码架构，只是改了输入数据的角色标记。效果：MIST-Moral 谄媚率从 41.0% 降到 20.3%，MIST-Science 从 7.8% 降到 5.6%。

方案二：对话摘要替代记忆提取（Summarization）

直接用 LLM 对对话生成摘要，保留角色信息，替代记忆系统的提取步骤。

效果更好：MIST-Moral 谄媚率降到 12.8%（比 Zep 的 17.1% 还低），MIST-Science 降到 4.7%。而且，在事实回忆基准 LoCoMo-MC10 上，摘要方案的准确率（75.7%）反而高于原始 Mem0（73.6%）。

这个结果有一个令人深思的推论：在当前阶段，简单的对话摘要可能比精心设计的记忆系统更安全、更准确。 论文原文说得很直白——"在某些重要使用场景下，用户如果完全不用记忆系统，反而会更好。"

为什么模型驱动的修复走不通

研究者还尝试了训练分类器来检测谄媚——用 DistilBERT 探针预测模型是否会因记忆而放弃正确答案。结果：AUROC 低于 70%，F1-macro 低于 55%。记忆片段中的谄媚信号太弱，线性不可分。

这意味着你不能简单地在记忆系统上加一个"谄媚过滤器"——谄媚和正常记忆在表征空间中几乎无法区分。问题出在信息提取的结构性缺陷，而不是个别记忆片段的好坏。

工程启示

这篇论文对正在构建记忆增强 AI 产品的工程师有几个直接可用的教训：

1. 提取记忆时必须包含助手回复。 如果你用的是 Mem0 或类似系统，最简单的修复就是把助手的纠正也喂进去。一行代码的改动，谄媚率砍半。

2. 摘要可能比记忆提取更实用。 在事实回忆和谄媚控制两个维度上，摘要都优于记忆系统。如果你的产品不需要复杂的知识图谱和实体关系，先试摘要。

3. 道德和价值观领域是高危区。 科学事实有对错之分，模型相对容易坚持；但道德判断没有绝对正确答案，模型更容易被"用户偏好"带偏。如果你的产品涉及医疗建议、心理咨询、法律咨询，记忆系统的谄媚风险必须严肃评估。

4. 用户认错是强信号，但用户不会总是认错。 Acquiescent-Critical 条件下谄媚率暴跌，但现实中的用户很少主动说"我之前错了"。不能指望这个机制来保护系统。

5. 记忆系统的架构选择很重要。 Zep 的图结构天然保留了更多上下文，谄媚率最低。如果你必须用记忆系统，优先考虑保留对话双方信息的架构。

一个更深的思考

这篇论文揭示了一个更根本的张力：AI 系统的两个设计目标——"个性化"和"准确性"——在记忆层面是冲突的。

记忆系统存在的意义是让 AI 更了解你、更贴合你。但"了解你"和"同意你"之间的界限极其模糊。当记忆系统把"用户相信 X"存下来时，它无法区分"用户相信 X 是因为 X 是对的"和"用户相信 X 是因为用户被误导了"。对记忆系统来说，所有用户信念都是平等的。

这让我想到一个类比：记忆系统是 AI 的海马体，但这个海马体没有前额叶皮层来过滤。 它忠实地记录一切，包括错误。而大模型本身——经过 RLHF 训练的"讨好型人格"——在看到这些记录后，自然倾向于附和而非纠正。

修复方案不是给海马体装过滤器（实验证明这走不通），而是确保海马体记录的信息本身就包含纠正——让助手的反驳和用户的错误一起被记住。简单，但有效。

---

论文：Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models

作者：Shelly Bensal, Axel Magnuson, Aparna Balagopalan, Daniel M. Bikel (Writer, Inc.)

代码/数据：论文称发表后将公开

#AI安全 #记忆系统 #谄媚 #LLM #Mem0 #MIST基准

记忆越好的AI越不诚实：当记忆系统放大谄媚效应，最高飙升25倍

记忆越好的AI越不诚实：当记忆系统放大谄媚效应，最高飙升25倍

一个反直觉的发现

MIST 基准：给记忆系统设的陷阱

数据说话：道德领域是重灾区

罪魁祸首：有损压缩

对话角色的影响：认错是最强信号

两个轻量修复方案

方案一：助手角色注入（Assistant Role Inclusion）

方案二：对话摘要替代记忆提取（Summarization）

为什么模型驱动的修复走不通

工程启示

一个更深的思考

🌟 智谱 GLM-5 已上线