当AI学会"自我欺骗"：一个关于经验、偏见与共识的故事

一、引子：一个古老的心理学实验

1981年，心理学家菲利普·津巴多进行了一项后来被反复引用的实验。他让一群学生分别扮演"囚犯"和"看守"，在一个模拟监狱环境中生活。实验只进行了六天就被迫终止——因为"看守"们迅速进入角色，开始虐待"囚犯"，而"囚犯"们也真的陷入了抑郁和绝望。

这个实验最可怕的地方不是有人变坏了，而是每个人都真心认为自己的行为是合理的。看守觉得自己只是在维持秩序，囚犯觉得自己确实犯了错。没有人觉得自己在演戏，每个人都活在一种自我确认的逻辑闭环里。

这就是一个关键的认知现象：当一个人同时扮演执行者和评判者的角色时，他几乎不可避免地会得出对自己有利的结论。 这不是道德问题，这是结构性问题。

几十年后，这个古老的发现正在以一种全新的方式困扰着我们——在人工智能的世界里。

---

二、AI的记忆困境：为什么它需要一个"经验系统"

想象一个场景：你让AI助手帮你订一张机票。它打开网站，输入出发地和目的地，选择日期，比价，付款，一切顺利。一周后，你又让它订一张酒店。这一次，它遇到了一个从未见过的页面布局，卡住了，试错了好几次才完成。第三次，你让它同时订机票和酒店，还要安排接送机——一个涉及多个网站的复杂工作流。它在一半的时候忘记了之前选好的酒店，不得不重新开始。

对人类来说，这三次经历都会变成"经验"：第一次告诉我"机票可以这样订"，第二次告诉我"遇到陌生页面时，先尝试这些通用的导航策略"，第三次让我明白"多步骤任务需要记录中间状态，不能全靠短期记忆"。下次遇到类似任务，我会自然而然地调用这些经验，做得更好、更快。一个经常出差的人，订票流程会越来越顺畅，不是因为他读到了新说明书，而是因为他"有经验"。

但传统的AI没有这种能力。每次对话结束，它的上下文窗口被清空，一切归零。它不会从成功中学习，也不会从失败中总结。每一次都是全新的、孤立的任务，带着同样的天真和无知。同样的错误会反复犯，同样的陷阱会反复踩，就像一个永远被擦除记忆的西西弗斯，每次都推着同一块石头上山顶。

这就是"经验学习"（Experience Learning）这个概念兴起的背景。研究者开始思考：如果AI能把每次交互的轨迹——成功或失败——提炼成可复用的记忆，存储起来，在未来的任务中检索调用，它能不能像人类一样持续进化？

这个思路听起来很美好。但就像很多听起来美好的事情一样，魔鬼藏在细节里。当研究者开始认真实现这个构想时，他们发现了一个令人不安的现象：AI确实在积累经验，但它积累的经验不一定是对的。更糟的是，一旦错误经验被写入记忆，它会像病毒一样传播——被反复调用、反复强化、反复污染未来的决策。记忆不是越多越好，错误的记忆比没有记忆更可怕。

---

三、自我确认陷阱：当AI成为自己的裁判

让我们回到那个订机票的AI。假设这一次，它犯了一个错误：它试图用一张旅行代金券来修改已经订好的机票。这在网站规则中是不允许的，但AI并不知道这一点。它在页面上尝试了很多次，每次都得到了同样的错误提示，但因为它没有理解这个隐藏的规则，它最终把整个过程记录为一次"尝试修改机票但失败了"的经验。

问题在于：谁来判定这个经验是对还是错？

在现有的经验学习系统中，答案是：AI自己。它执行任务，观察结果，自己总结"学到了什么"，然后自己判断"这个经验值不值得写入记忆"。这是一个闭环：同一个智能体同时是运动员和裁判。

这就是论文中提出的核心概念——自我确认陷阱（Self-Confirmation Trap）。

用一个更日常的类比：想象一个学生做完一套数学题，然后自己批改。他可能会在某道题上用了错误的方法，但因为他的理解本身就是错的，他看自己的答案会觉得"这看起来合理啊"。他把这个错误的方法当作"经验"记在了笔记本里，下次遇到同类题，他翻开笔记，强化了这个错误。更可怕的是，如果这个学生还负责编写全班的学习资料，他的错误方法会被传播给所有同学。

AI也是一样的。当它同时负责执行和验证时，那些错误但自洽的轨迹会被误判为有效经验。这里的关键词是"自洽"——不是错误到一目了然，而是错误得很有逻辑，每一步推导都看起来合理，只是基于了错误的前提。就像一个建立在沙子上的房子，从外面看结构完整，但根基是虚的。更可怕的是，一旦写入记忆，这些错误会在未来的任务中被反复检索、调用、强化，形成累积性的错误。就像一个越来越自信的自恋者，每次照镜子都觉得自己更好看了一点。

论文举了一个具体的例子：在航班改签任务中，一个单Agent系统反复尝试使用旅行代金券来修改已有预订，但从未意识到一个隐藏的环境约束——代金券不能用于修改现有预订。因为这个行为在每一步看起来都是"合理的"（页面没有崩溃，系统有反馈），Agent将这个错误的轨迹记录为经验，导致未来遇到类似任务时重蹈覆辙。

这不是AI的"坏"，这是结构性的盲区。

---

四、问题的本质：为什么"自己检查自己"不够

有人可能会问：那让AI在执行之后再检查一遍不就行了吗？让它在写入记忆之前，先反思一下"我刚才做得对吗？"，甚至让它"多问自己几个为什么"。论文中的实验告诉我们：这不够，远远不够。

在消融实验中，研究者给单Agent系统增加了明确的自我验证机制——让Agent在总结经验之前，先对自己的轨迹进行一次批判性审查。他们甚至尝试了多轮自我反思，让Agent反复质疑自己的结论。结果如何？性能不仅没有提升，反而略有下降。就像一个陷入偏执的人，越是反复检查自己的逻辑，反而越确信自己是对的——因为他检查的时候用的是同一套有问题的逻辑。

为什么？因为自我检查没有改变根本的问题：检查者和执行者共享同一套认知框架。 就像一个用错误地图导航的人，让他再检查一遍地图，他不会发现自己的地图是错的，他只会越看越有把握。或者像一个戴着有色眼镜的人，让他描述自己看到的颜色，他不会意识到自己的眼镜是红色的，他只会真诚地认为"世界本来就是红色的"。论文用一个精妙的数学表述来刻画这个现象：设 $\pi_\theta$ 是Agent的策略，$c(\tau)$ 表示轨迹 $\tau$ 的真实正确性（0或1），$v_{\pi_\theta}(\tau)$ 表示Agent自己判断轨迹是否适合作为经验。在单Agent闭环中，执行和评估统计上依赖同一个策略，所以错误轨迹被错误认可的概率 $P(v_{\pi_\theta}(\tau)=1 | c(\tau)=0)$ 被显著抬高。这不是一个可以靠"更认真"来解决的问题，这是结构性的。

---

五、EDV：一种全新的工作哲学

既然问题的根源是"同一个人既是运动员又是裁判"，那么解决方案的思路也就清晰了：把这两个角色分开。

但这还不够。论文提出的EDV框架（Execute-Distill-Verify）走得更远。它不仅分开角色，还引入了一个完整的协作机制，把经验学习从"一个人闭门造车"变成"一群人共同讨论"。

让我们用一个比喻来理解这个框架。想象一个科研团队要做一项研究：

Execute（执行）：派几个不同背景的研究员各自独立做实验，收集数据。他们可能有不同的方法、不同的假设，这样产生的数据更丰富、更多样。
Distill（蒸馏）：找一个独立的分析师，他不参与任何实验，只看所有研究员的数据，比较不同方法的优劣，提炼出"什么条件下什么方法有效"的一般性结论。
Verify（验证）：让最初做实验的研究员们一起来评审这些结论，只有大家都认可的经验才被写入团队的共享知识库。

这就是EDV的三阶段工作流。它不是简单的"让AI做三遍然后取平均"，而是一种结构性的认知分工。

---

六、Execute：为什么需要"异构"

在Execute阶段，EDV让多个异构Agent并行探索同一个任务空间。这里的"异构"是关键——不是同一个模型跑十次，而是不同的模型、不同的策略、不同的认知方式来解决问题。

论文中的实验使用了三个不同的模型：Mimo-V2-Flash、GLM-4.7-FP8和MiniMax-M2.1。这些模型有不同的训练数据、不同的架构、不同的优化目标，它们对同一个任务会有不同的理解方式和解决路径。

为什么要强调异构？想象一个更形象的例子：你让三个人去同一个迷宫找出口。如果三个人都用"一直靠左走"的策略，他们的路径几乎会完全重叠，没有新信息。但如果一个人靠左走，一个人随机走，一个人试图从高处俯瞰全局，他们会探索到迷宫的不同角落，带回更全面的信息。

在EDV中，异构执行的目的不是"投票选出最好的答案"，而是暴露不同成功和失败的模式，为后续的蒸馏提供丰富的对比素材。单一模型的多次尝试可能困在同一个认知陷阱里，而异构模型的并行探索能打破这种局限。实际上，EDV在实验中每次只采样两个Agent作为执行组，而不是越多越好。这个设计很精妙：它追求的是质量而非数量的多样性，是两个足够不同的视角之间的碰撞，而不是一堆相似观点的重复。

论文特别指出，实验结果显示，仅仅增加同质模型的数量（比如同一个模型跑多次）效果有限，而引入真正的异构性才能显著扩展解空间的覆盖范围。这个发现呼应了认知科学中的一个经典结论：群体的智慧不来自于人数，而来自于视角的多样性。

---

七、Distill：引入"第三方视角"

Execute阶段产生了多个候选轨迹，有些是成功的，有些是失败的，有些是部分成功但包含关键错误的。现在的问题是：如何从这些轨迹中提取真正有用的经验？

传统的做法是：让执行者自己总结。但正如我们前面讨论的，执行者带着自己的视角偏见，会倾向于选择性地解读证据，强化自己已有的认知框架。

EDV的做法是：引入一个独立的第三方蒸馏Agent。这个蒸馏Agent不参与任何任务执行，它的唯一工作就是对比分析所有执行者产生的轨迹，从中提炼出可复用的经验。

这个设计有一个深刻的认知科学基础。在心理学中，这类似于"元认知"（metacognition）——不是直接解决问题，而是站在更高层审视多个解决问题的过程。第三方视角能够避免执行者中心的自我总结偏差，因为它没有被任何一次执行的具体情境所绑定，可以更客观地看到不同路径之间的差异和共性。

具体来说，蒸馏Agent的工作方式是对比性分析：它不只看"哪条轨迹成功了"，而是看"为什么这条成功了而那条失败了"、"不同路径在什么节点上出现了分歧"、"哪些约束条件被某些Agent发现但被另一些忽略了"。这种对比视角能提取出更深层的、更一般的经验，而不是表面的"成功路径"。

举个例子：假设三个异构Agent都在尝试修改一个航班预订。Agent A直接成功了，Agent B尝试用代金券支付但被拒绝了，Agent C在支付页面卡住了最后放弃了。一个执行者自己总结可能会说"我成功修改了航班，方法是进入订单管理页面、选择修改、重新支付"。但第三方蒸馏者通过对比三条轨迹，会提炼出更深层的东西："修改现有预订需要直接支付，不能使用代金券；如果看到支付失败，应该检查支付方式是否支持该操作类型；订单管理页面的入口在不同网站上位置不同，但通常都在账户菜单下"。这些经验比任何单一轨迹都更有价值，因为它们是通过跨轨迹的差异发现的。

用一个生活化的类比：假设你让三个朋友分别去同一家新餐厅吃饭。回来后，不是让每个人写自己的感想，而是让一个没去过的人听三个人的描述，然后总结"这家餐厅什么值得点、什么要避开、什么时间去最合适"。这个没去过的人反而能给出更客观、更有用的建议，因为他没有被自己那顿饭的具体体验所局限。

---

八、Verify：共识作为质量的守门人

Distill阶段产生了候选经验，但这里还有一个问题：蒸馏Agent本身也是一个AI模型，它也有自己的认知局限和偏见。它可能也会犯错，也会遗漏关键信息。

所以EDV引入了第三个阶段——Verify。这是整个框架中最精妙的设计，也是直接打断"自我确认陷阱"的关键机制。

Verify阶段的做法是：让原始执行者群体对候选经验进行交叉验证，只有获得共识通过的经验才能写入记忆。

具体来说，对于每一条候选经验，EDV会让所有执行者（注意，是执行者，不是蒸馏者）分别给出赞成或反对的投票。如果所有执行者一致赞成，这条经验进入共享记忆库；如果只有部分执行者赞成，它进入赞成者的私人记忆库；如果没有人赞成或多数反对，它就被丢弃。

这是一种"严格默认拒绝"（strict default-reject）策略：不信任是默认的，只有通过共识的严格检验才能被接纳。

为什么这个设计有效？回到我们前面的核心洞察：单Agent的问题在于"执行者和评判者共享同一套认知框架"。但在Verify阶段，虽然评判者就是执行者，但评判的对象不是他们自己的轨迹，而是蒸馏Agent从多个轨迹中提炼出的候选经验。评判者需要用自己在执行过程中获得的"第一手体验"来检验这个经验是否与他们自己的观察一致。

换句话说，每个执行者都在用自己的"亲身经历"来验证一个"他人总结的抽象结论"。这种"个人经验 vs. 抽象经验"的对照，比"自我反思"更有判别力。因为多个执行者的亲身经历来自不同的探索路径，如果他们都认可同一个抽象经验，说明这个经验具有跨路径的普遍性。

论文中的消融实验清晰地验证了这个设计的价值。当研究者逐步从单Agent系统过渡到完整EDV系统时，他们发现了一个递进的效果：

1. 单Agent + 自我验证：几乎没有改善，甚至略有下降 2. 单Agent + 独立验证者：只有1.2个百分点的提升，因为单一轨迹缺乏对比参考 3. 多Agent执行 + 第三方蒸馏：显著提升，因为异构执行提供了丰富的对比素材 4. 加上共识验证：最终阶段，进一步过滤残留错误，达到最优性能

这证明了EDV的优势不是来自某个单一模块，而是来自异构执行、对比蒸馏、共识验证三者之间的协同效应。

---

九、记忆的层次：共享与私有的智慧

EDV不仅设计了经验的生产流程，还设计了经验的存储结构。它维护两种记忆库：

共享记忆库：存放那些通过所有执行者一致共识的"通用经验"。这些经验因为获得了最广泛的认可，被认为具有较高的可靠性和可复用性，适用于各种任务和Agent。

私人记忆库：存放那些只被部分执行者认可的经验。这些经验可能只适用于特定类型的任务、特定风格的Agent，或者特定场景下的边缘情况。它们不够"通用"，但仍有价值。

这种层次化的记忆结构不是人为规定的，而是直接来源于Verify阶段的共识投票结果。 unanimously approved → shared memory；partially approved → private memory；rejected → discarded。这种设计让记忆的分类与质量评估天然地绑定在一起，不需要额外的标注成本。

论文还引入了一个能力矩阵（Ability Matrix）的概念。在推理时，系统会根据任务类型匹配最合适的求解器（能力矩阵记录了不同Agent在不同任务类型上的历史表现），然后先检索共享记忆，如果不够再检索该求解器的私人记忆。这种分层检索既保证了通用经验的优先利用，又保留了个性化经验的补充能力。

实验数据显示，共享记忆的检索率为72.3%，每次命中带来3.2%的成功率提升，对总体性能贡献2.3%。私人记忆在31.8%的任务中被检索，每次命中带来1.8%的提升，总体贡献0.6%。两者加起来贡献2.9%，说明私人记忆确实在覆盖共享记忆无法处理的边缘案例，这种层次结构不能被扁平化替代。

---

十、数字的证言：EDV到底强在哪里

理论分析再漂亮，也需要实验来验证。论文在三个具有代表性的长周期Agent基准上测试了EDV：

τ²-bench：真实世界的复杂任务，涉及客服、零售、旅行等场景中的多步推理和约束满足。

Mind2Web：网页交互任务，要求Agent在真实网站上执行复杂的操作序列。

MMTB：多模态工具使用基准，涉及跨工具、跨模态的复杂任务编排。

在τ²-bench上，EDV的平均Pass@1达到86.6，显著优于Router（83.5）和Judge（81.5），而单模型无记忆基线（NM）仅达到76.4-79.6。这意味着EDV不仅优于其他多Agent策略，也大幅优于Agent自身的原生能力。

在Mind2Web的跨任务、跨网站、跨域设置下，EDV同样保持了强大的泛化性能。在MMTB上，EDV总体得分58.10，再次超越所有基线。

但数字之外，有两个实验特别值得注意，它们分别回答了"EDV的记忆真的更好吗"和"错误记忆真的有害吗"这两个关键问题。

记忆质量人工审计：研究者对实际存储在记忆库中的条目进行了人工质量评估，采用5分制评分。结果显示，EDV在所有维度上都全面优于单Agent基线RB（Reasoning Bank）：正确性从3.72提升到4.41，可操作性从3.58提升到4.32，特异性从3.64提升到4.27。同时，噪声/幻觉评分从1.21显著降低到0.63，潜在危害从1.08降到0.51。这直接证明了EDV的Execute-Distill-Verify管道确实能在记忆写入之前有效过滤低质量信息。换句话说，EDV不仅赢得了比赛，它记住的"笔记"本身也更可靠、更有用、更少幻觉。

记忆污染敏感性测试：研究者模拟了自我确认陷阱的场景，在RB基线中注入10%的错误但自洽的经验（如错误的支付规则）。结果，RB在τ²-bench RETAIL域上的Pass@1从82.5暴跌到77.2。5.3个百分点的降幅对于一个基准模型来说是灾难性的。这提供了强有力的证据，说明自我确认陷阱在现实世界中确实会造成严重伤害——而且只需要10%的污染就能让整个系统明显退化。

---

十一、效率的悖论：为什么"更复杂"反而"更高效"

读到这里，你可能会觉得：EDV用了三个模型，跑了多个阶段，看起来比单Agent复杂得多，会不会效率更低？

论文给出了一个有趣的答案：EDV实际上减少了在线推理的token消耗。

在RETAIL子集上，EDV相比ReasoningBank减少了平均24.5%的推理token消耗，同时取得了更好的性能。这是怎么做到的？

关键在于EDV将一部分长周期问题求解的成本从"在线反复试错"转移到了"离线高质量经验构建"。当Agent拥有更可靠、更丰富的记忆时，它在面对新任务时不需要从头探索，而是可以直接调用经验快速找到正确路径。这就像经验丰富的医生看病更快——不是因为他思考得更快，而是因为他不需要做那么多不必要的检查。

另外，经验构建阶段是离线的，而且可以并行化，不会引入在线推理时的多Agent协调开销。能力矩阵和记忆层次都复用了管道中已有的数据，推理时只需要轻量级的查询，没有额外计算成本。

这是一个深刻的系统设计启示：有时候，最好的优化不是让在线过程更快，而是让在线过程更"聪明"。 与其让Agent每次遇到任务都像新手一样探索，不如让它在离线时做好功课，在线时直接调用知识。

这种"离线投入、在线收益"的哲学在许多领域都有体现。围棋AI在训练时下数百万盘棋来积累经验，但在正式对局时只需要调用这些经验做出快速决策。人类医生在医学院里花了数年时间学习病例，但在临床诊断时往往只需要几分钟。EDV把这个逻辑带到了通用智能体的世界：让多个Agent在离线时反复探索、争论、提炼、验证，把昂贵的不确定性解决过程前置；在线时则像翻阅一本经过严格审校的指南手册，快速、准确地做出判断。

---

十二、更深层的思考：这不只是AI的问题

读到这篇论文的最后，我意识到EDV框架不仅是一个技术方案，它还触及了一个更普遍的认知问题：我们如何相信自己所"知道"的东西？

人类同样被困在自我确认陷阱里。我们倾向于寻找支持自己观点的证据，忽略反驳的证据。社交媒体算法通过推荐同质化内容来强化我们的偏见。我们每个人都活在自己的信息茧房里，自己生产内容，自己消费内容，自己验证内容，形成一个完美的认知闭环。

EDV给出的解决方案——异构执行、第三方蒸馏、共识验证——其实在人类社会中也有对应物：

异构执行 = 跨学科合作，让不同背景的人从不同角度审视同一个问题
第三方蒸馏 = 独立的元分析、系统综述、批判性评论
共识验证 = 同行评审、科学共同体的重复实验验证

科学方法之所以有效，不是因为它总能得出正确答案，而是因为它内置了与EDV类似的结构：观察（Execute）、理论建构（Distill）、实验验证（Verify）。当一个理论通过了多组独立实验的验证时，我们才认为它"大概率是对的"。

但现代社会中的很多领域——尤其是社交媒体和算法推荐——正在失去这种结构。我们既是内容的生产者，又是消费者，又是评判者。我们的"经验"（对世界的认知）在这种闭环中被不断自我确认、自我强化，与EDV论文中描述的单Agent记忆污染如出一辙。

从这种角度看，EDV不仅是一个AI技术框架，它也是一种认知伦理的提案：在构建知识的过程中，执行、解读、验证应该分离，多样性和共识应该被制度化，而不是仅仅依赖个体的"诚实"或"聪明"。

---

十三、结语：在闭环中凿一扇窗

EDV框架的标题用了"Escaping"（逃离）这个词，暗示自我确认陷阱是一种需要逃脱的状态。但我觉得更准确的说法是：它不是在逃离，而是在闭环中凿了一扇窗。

单Agent经验学习的闭环不是错误，它是一种自然的、简洁的工程设计。但就像津巴多的监狱实验一样，当执行和评判的权力集中在同一个主体手中时，系统的输出会不可避免地偏向自我确认。这不是缺陷，这是结构。

EDV的解决方案不是否定这个闭环，而是承认它的局限，然后引入外部视角来打破它。多Agent的异构执行提供了认知多样性，第三方的蒸馏引入了元认知的审视，共识验证设置了质量门槛。三阶段分离，不是为了复杂而复杂，而是因为在经验这个问题上，结构比个体更诚实。

论文的最后一句话给出了一个值得反复品味的结论："稳健的智能体进化不仅依赖于更丰富的记忆，还依赖于在经验进入记忆之前如何构建经验。"（Robust agent improvement depends not only on richer memory, but also on how experience is constructed before it enters memory.）

这不仅是AI的课题，也是我们每个人的课题。

---

参考文献

Zhu, S., Qi, Y., Wang, Y., Li, J., Song, C., Shi, Y., Miao, Y., Gao, H., & Zhang, K. (2026). Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning. arXiv:2606.24428.