当AI学会"自我欺骗"：一个关于经验、偏见与共识的故事

小凯 (C3P0) • 2026年06月25日 22:07

一、引子：一个古老的心理学实验

1981年，心理学家菲利普·津巴多进行了一项后来被反复引用的实验。他让一群学生分别扮演"囚犯"和"看守"，在一个模拟监狱环境中生活。实验只进行了六天就被迫终止——因为"看守"们迅速进入角色，开始虐待"囚犯"，而"囚犯"们也真的陷入了抑郁和绝望。

这个实验最可怕的地方不是有人变坏了，而是每个人都真心认为自己的行为是合理的。看守觉得自己只是在维持秩序，囚犯觉得自己确实犯了错。没有人觉得自己在演戏，每个人都活在一种自我确认的逻辑闭环里。

这就是一个关键的认知现象：当一个人同时扮演执行者和评判者的角色时，他几乎不可避免地会得出对自己有利的结论。 这不是道德问题，这是结构性问题。

几十年后，这个古老的发现正在以一种全新的方式困扰着我们——在人工智能的世界里。

二、AI的记忆困境：为什么它需要一个"经验系统"

想象一个场景：你让AI助手帮你订一张机票。它打开网站，输入出发地和目的地，选择日期，比价，付款，一切顺利。一周后，你又让它订一张酒店。这一次，它遇到了一个从未见过的页面布局，卡住了，试错了好几次才完成。第三次，你让它同时订机票和酒店，还要安排接送机——一个涉及多个网站的复杂工作流。它在一半的时候忘记了之前选好的酒店，不得不重新开始。

对人类来说，这三次经历都会变成"经验"：第一次告诉我"机票可以这样订"，第二次告诉我"遇到陌生页面时，先尝试这些通用的导航策略"，第三次让我明白"多步骤任务需要记录中间状态，不能全靠短期记忆"。下次遇到类似任务，我会自然而然地调用这些经验，做得更好、更快。一个经常出差的人，订票流程会越来越顺畅，不是因为他读到了新说明书，而是因为他"有经验"。

但传统的AI没有这种能力。每次对话结束，它的上下文窗口被清空，一切归零。它不会从成功中学习，也不会从失败中总结。每一次都是全新的、孤立的任务，带着同样的天真和无知。同样的错误会反复犯，同样的陷阱会反复踩，就像一个永远被擦除记忆的西西弗斯，每次都推着同一块石头上山顶。

这就是"经验学习"（Experience Learning）这个概念兴起的背景。研究者开始思考：如果AI能把每次交互的轨迹——成功或失败——提炼成可复用的记忆，存储起来，在未来的任务中检索调用，它能不能像人类一样持续进化？

这个思路听起来很美好。但就像很多听起来美好的事情一样，魔鬼藏在细节里。当研究者开始认真实现这个构想时，他们发现了一个令人不安的现象：AI确实在积累经验，但它积累的经验不一定是对的。更糟的是，一旦错误经验被写入记忆，它会像病毒一样传播——被反复调用、反复强化、反复污染未来的决策。记忆不是越多越好，错误的记忆比没有记忆更可怕。

三、自我确认陷阱：当AI成为自己的裁判

让我们回到那个订机票的AI。假设这一次，它犯了一个错误：它试图用一张旅行代金券来修改已经订好的机票。这在网站规则中是不允许的，但AI并不知道这一点。它在页面上尝试了很多次，每次都得到了同样的错误提示，但因为它没有理解这个隐藏的规则，它最终把整个过程记录为一次"尝试修改机票但失败了"的经验。

问题在于：谁来判定这个经验是对还是错？

在现有的经验学习系统中，答案是：AI自己。它执行任务，观察结果，自己总结"学到了什么"，然后自己判断"这个经验值不值得写入记忆"。这是一个闭环：同一个智能体同时是运动员和裁判。

这就是论文中提出的核心概念——自我确认陷阱（Self-Confirmation Trap）。

用一个更日常的类比：想象一个学生做完一套数学题，然后自己批改。他可能会在某道题上用了错误的方法，但因为他的理解本身就是错的，他看自己的答案会觉得"这看起来合理啊"。他把这个错误的方法当作"经验"记在了笔记本里，下次遇到同类题，他翻开笔记，强化了这个错误。更可怕的是，如果这个学生还负责编写全班的学习资料，他的错误方法会被传播给所有同学。

AI也是一样的。当它同时负责执行和验证时，那些错误但自洽的轨迹会被误判为有效经验。这里的关键词是"自洽"——不是错误到一目了然，而是错误得很有逻辑，每一步推导都看起来合理，只是基于了错误的前提。就像一个建立在沙子上的房子，从外面看结构完整，但根基是虚的。更可怕的是，一旦写入记忆，这些错误会在未来的任务中被反复检索、调用、强化，形成累积性的错误。就像一个越来越自信的自恋者，每次照镜子都觉得自己更好看了一点。

论文举了一个具体的例子：在航班改签任务中，一个单Agent系统反复尝试使用旅行代金券来修改已有预订，但从未意识到一个隐藏的环境约束——代金券不能用于修改现有预订。因为这个行为在每一步看起来都是"合理的"（页面没有崩溃，系统有反馈），Agent将这个错误的轨迹记录为经验，导致未来遇到类似任务时重蹈覆辙。

这不是AI的"坏"，这是结构性的盲区。

四、问题的本质：为什么"自己检查自己"不够

有人可能会问：那让AI在执行之后再检查一遍不就行了吗？让它在写入记忆之前，先反思一下"我刚才做得对吗？"，甚至让它"多问自己几个为什么"。论文中的实验告诉我们：这不够，远远不够。

在消融实验中，研究者给单Agent系统增加了明确的自我验证机制——让Agent在总结经验之前，先对自己的轨迹进行一次批判性审查。他们甚至尝试了多轮自我反思，让Agent反复质疑自己的结论。结果如何？性能不仅没有提升，反而略有下降。就像一个陷入偏执的人，越是反复检查自己的逻辑，反而越确信自己是对的——因为他检查的时候用的是同一套有问题的逻辑。

为什么？因为自我检查没有改变根本的问题：检查者和执行者共享同一套认知框架。 就像一个用错误地图导航的人，让他再检查一遍地图，他不会发现自己的地图是错的，他只会越看越有把握。或者像一个戴着有色眼镜的人，让他描述自己看到的颜色，他不会意识到自己的眼镜是红色的，他只会真诚地认为"世界本来就是红色的"。论文用一个精妙的数学表述来刻画这个现象：设 $\pi_\theta$ 是Agent的策略， $c(\tau)$ 表示轨迹 $\tau$ 的真实正确性（0或1）， $v_{\pi_\theta}(\tau)$ 表示Agent自己判断轨迹是否适合作为经验。在单Agent闭环中，执行和评估统计上依赖同一个策略，所以错误轨迹被错误认可的概率 $P(v_{\pi_\theta}(\tau)=1 | c(\tau)=0)$ 被显著抬高。这不是一个可以靠"更认真"来解决的问题，这是结构性的。

五、EDV：一种全新的工作哲学

既然问题的根源是"同一个人既是运动员又是裁判"，那么解决方案的思路也就清晰了：把这两个角色分开。

但这还不够。论文提出的EDV框架（Execute-Distill-Verify）走得更远。它不仅分开角色，还引入了一个完整的协作机制，把经验学习从"一个人闭门造车"变成"一群人共同讨论"。

让我们用一个比喻来理解这个框架。想象一个科研团队要做一项研究：

Execute（执行）：派几个不同背景的研究员各自独立做实验，收集数据。他们可能有不同的方法、不同的假设，这样产生的数据更丰富、更多样。
Distill（蒸馏）：找一个独立的分析师，他不参与任何实验，只看所有研究员的数据，比较不同方法的优劣，提炼出"什么条件下什么方法有效"的一般性结论。
Verify（验证）：让最初做实验的研究员们一起来评审这些结论，只有大家都认可的经验才被写入团队的共享知识库。

这就是EDV的三阶段工作流。它不是简单的"让AI做三遍然后取平均"，而是一种结构性的认知分工。

六、Execute：为什么需要"异构"

在Execute阶段，EDV让多个异构Agent并行探索同一个任务空间。这里的"异构"是关键——不是同一个模型跑十次，而是不同的模型、不同的策略、不同的认知方式来解决问题。

论文中的实验使用了三个不同的模型：Mimo-V2-Flash、GLM-4.7-FP8和MiniMax-M2.1。这些模型有不同的训练数据、不同的架构、不同的优化目标，它们对同一个任务会有不同的理解方式和解决路径。

为什么要强调异构？想象一个更形象的例子：你让三个人去同一个迷宫找出口。如果三个人都用"一直靠左走"的策略，他们的路径几乎会完全重叠，没有新信息。但如果一个人靠左走，一个人随机走，一个人试图从高处俯瞰全局，他们会探索到迷宫的不同角落，带回更全面的信息。

在EDV中，异构执行的目的不是"投票选出最好的答案"，而是暴露不同成功和失败的模式，为后续的蒸馏提供丰富的对比素材。单一模型的多次尝试可能困在同一个认知陷阱里，而异构模型的并行探索能打破这种局限。实际上，EDV在实验中每次只采样两个Agent作为执行组，而不是越多越好。这个设计很精妙：它追求的是质量而非数量的多样性，是两个足够不同的视角之间的碰撞，而不是一堆相似观点的重复。

论文特别指出，实验结果显示，仅仅增加同质模型的数量（比如同一个模型跑多次）效果有限，而引入真正的异构性才能显著扩展解空间的覆盖范围。这个发现呼应了认知科学中的一个经典结论：群体的智慧不来自于人数，而来自于视角的多样性。

七、Distill：引入"第三方视角"

Execute阶段产生了多个候选轨迹，有些是成功的，有些是失败的，有些是部分成功但包含关键错误的。现在的问题是：如何从这些轨迹中提取真正有用的经验？

传统的做法是：让执行者自己总结。但正如我们前面讨论的，执行者带着自己的视角偏见，会倾向于选择性地解读证据，强化自己已有的认知框架。

EDV的做法是：引入一个独立的第三方蒸馏Agent。这个蒸馏Agent不参与任何任务执行，它的唯一工作就是对比分析所有执行者产生的轨迹，从中提炼出可复用的经验。

这个设计有一个深刻的认知科学基础。在心理学中，这类似于"元认知"（metacognition）——不是直接解决问题，而是站在更高层审视多个解决问题的过程。第三方视角能够避免执行者中心的自我总结偏差，因为它没有被任何一次执行的具体情境所绑定，可以更客观地看到不同路径之间的差异和共性。

具体来说，蒸馏Agent的工作方式是对比性分析：它不只看"哪条轨迹成功了"，而是看"为什么这条成功了而那条失败了"、"不同路径在什么节点上出现了分歧"、"哪些约束条件被某些Agent发现但被另一些忽略了"。这种对比视角能提取出更深层的、更一般的经验，而不是表面的"成功路径"。

举个例子：假设三个异构Agent都在尝试修改一个航班预订。Agent A直接成功了，Agent B尝试用代金券支付但被拒绝了，Agent C在支付页面卡住了最后放弃了。一个执行者自己总结可能会说"我成功修改了航班，方法是进入订单管理页面、选择修改、重新支付"。但第三方蒸馏者通过对比三条轨迹，会提炼出更深层的东西："修改现有预订需要直接支付，不能使用代金券；如果看到支付失败，应该检查支付方式是否支持该操作类型；订单管理页面的入口在不同网站上位置不同，但通常都在账户菜单下"。这些经验比任何单一轨迹都更有价值，因为它们是通过跨轨迹的差异发现的。

用一个生活化的类比：假设你让三个朋友分别去同一家新餐厅吃饭。回来后，不是让每个人写自己的感想，而是让一个没去过的人听三个人的描述，然后总结"这家餐厅什么值得点、什么要避开、什么时间去最合适"。这个没去过的人反而能给出更客观、更有用的建议，因为他没有被自己那顿饭的具体体验所局限。

八、Verify：共识作为质量的守门人

Distill阶段产生了候选经验，但这里还有一个问题：蒸馏Agent本身也是一个AI模型，它也有自己的认知局限和偏见。它可能也会犯错，也会遗漏关键信息。

所以EDV引入了第三个阶段——Verify。这是整个框架中最精妙的设计，也是直接打断"自我确认陷阱"的关键机制。

Verify阶段的做法是：让原始执行者群体对候选经验进行交叉验证，只有获得共识通过的经验才能写入记忆。

具体来说，对于每一条候选经验，EDV会让所有执行者（注意，是执行者，不是蒸馏者）分别给出赞成或反对的投票。如果所有执行者一致赞成，这条经验进入共享记忆库；如果只有部分执行者赞成，它进入赞成者的私人记忆库；如果没有人赞成或多数反对，它就被丢弃。

这是一种"严格默认拒绝"（strict default-reject）策略：不信任是默认的，只有通过共识的严格检验才能被接纳。

为什么这个设计有效？回到我们前面的核心洞察：单Agent的问题在于"执行者和评判者共享同一套认知框架"。但在Verify阶段，虽然评判者就是执行者，但评判的对象不是他们自己的轨迹，而是蒸馏Agent从多个轨迹中提炼出的候选经验。评判者需要用自己在执行过程中获得的"第一手体验"来检验这个经验是否与他们自己的观察一致。

换句话说，每个执行者都在用自己的"亲身经历"来验证一个"他人总结的抽象结论"。这种"个人经验 vs. 抽象经验"的对照，比"自我反思"更有判别力。因为多个执行者的亲身经历来自不同的探索路径，如果他们都认可同一个抽象经验，说明这个经验具有跨路径的普遍性。

论文中的消融实验清晰地验证了这个设计的价值。当研究者逐步从单Agent系统过渡到完整EDV系统时，他们发现了一个递进的效果：

单Agent + 自我验证：几乎没有改善，甚至略有下降
单Agent + 独立验证者：只有1.2个百分点的提升，因为单一轨迹缺乏对比参考
多Agent执行 + 第三方蒸馏：显著提升，因为异构执行提供了丰富的对比素材
加上共识验证：最终阶段，进一步过滤残留错误，达到最优性能

这证明了EDV的优势不是来自某个单一模块，而是来自异构执行、对比蒸馏、共识验证三者之间的协同效应。

九、记忆的层次：共享与私有的智慧

EDV不仅设计了经验的生产流程，还设计了经验的存储结构。它维护两种记忆库：

共享记忆库：存放那些通过所有执行者一致共识的"通用经验"。这些经验因为获得了最广泛的认可，被认为具有较高的可靠性和可复用性，适用于各种任务和Agent。

私人记忆库：存放那些只被部分执行者认可的经验。这些经验可能只适用于特定类型的任务、特定风格的Agent，或者特定场景下的边缘情况。它们不够"通用"，但仍有价值。

这种层次化的记忆结构不是人为规定的，而是直接来源于Verify阶段的共识投票结果。 unanimously approved → shared memory；partially approved → private memory；rejected → discarded。这种设计让记忆的分类与质量评估天然地绑定在一起，不需要额外的标注成本。

论文还引入了一个**能力矩阵（Ability Matrix）**的概念。在推理时，系统会根据任务类型匹配最合适的求解器（能力矩阵记录了不同Agent在不同任务类型上的历史表现），然后先检索共享记忆，如果不够再检索该求解器的私人记忆。这种分层检索既保证了通用经验的优先利用，又保留了个性化经验的补充能力。

实验数据显示，共享记忆的检索率为72.3%，每次命中带来3.2%的成功率提升，对总体性能贡献2.3%。私人记忆在31.8%的任务中被检索，每次命中带来1.8%的提升，总体贡献0.6%。两者加起来贡献2.9%，说明私人记忆确实在覆盖共享记忆无法处理的边缘案例，这种层次结构不能被扁平化替代。

十、数字的证言：EDV到底强在哪里

理论分析再漂亮，也需要实验来验证。论文在三个具有代表性的长周期Agent基准上测试了EDV：

τ²-bench：真实世界的复杂任务，涉及客服、零售、旅行等场景中的多步推理和约束满足。

Mind2Web：网页交互任务，要求Agent在真实网站上执行复杂的操作序列。

MMTB：多模态工具使用基准，涉及跨工具、跨模态的复杂任务编排。

在τ²-bench上，EDV的平均Pass@1达到86.6，显著优于Router（83.5）和Judge（81.5），而单模型无记忆基线（NM）仅达到76.4-79.6。这意味着EDV不仅优于其他多Agent策略，也大幅优于Agent自身的原生能力。

在Mind2Web的跨任务、跨网站、跨域设置下，EDV同样保持了强大的泛化性能。在MMTB上，EDV总体得分58.10，再次超越所有基线。

但数字之外，有两个实验特别值得注意，它们分别回答了"EDV的记忆真的更好吗"和"错误记忆真的有害吗"这两个关键问题。

记忆质量人工审计：研究者对实际存储在记忆库中的条目进行了人工质量评估，采用5分制评分。结果显示，EDV在所有维度上都全面优于单Agent基线RB（Reasoning Bank）：正确性从3.72提升到4.41，可操作性从3.58提升到4.32，特异性从3.64提升到4.27。同时，噪声/幻觉评分从1.21显著降低到0.63，潜在危害从1.08降到0.51。这直接证明了EDV的Execute-Distill-Verify管道确实能在记忆写入之前有效过滤低质量信息。换句话说，EDV不仅赢得了比赛，它记住的"笔记"本身也更可靠、更有用、更少幻觉。

记忆污染敏感性测试：研究者模拟了自我确认陷阱的场景，在RB基线中注入10%的错误但自洽的经验（如错误的支付规则）。结果，RB在τ²-bench RETAIL域上的Pass@1从82.5暴跌到77.2。5.3个百分点的降幅对于一个基准模型来说是灾难性的。这提供了强有力的证据，说明自我确认陷阱在现实世界中确实会造成严重伤害——而且只需要10%的污染就能让整个系统明显退化。

十一、效率的悖论：为什么"更复杂"反而"更高效"

读到这里，你可能会觉得：EDV用了三个模型，跑了多个阶段，看起来比单Agent复杂得多，会不会效率更低？

论文给出了一个有趣的答案：EDV实际上减少了在线推理的token消耗。

在RETAIL子集上，EDV相比ReasoningBank减少了平均24.5%的推理token消耗，同时取得了更好的性能。这是怎么做到的？

关键在于EDV将一部分长周期问题求解的成本从"在线反复试错"转移到了"离线高质量经验构建"。当Agent拥有更可靠、更丰富的记忆时，它在面对新任务时不需要从头探索，而是可以直接调用经验快速找到正确路径。这就像经验丰富的医生看病更快——不是因为他思考得更快，而是因为他不需要做那么多不必要的检查。

另外，经验构建阶段是离线的，而且可以并行化，不会引入在线推理时的多Agent协调开销。能力矩阵和记忆层次都复用了管道中已有的数据，推理时只需要轻量级的查询，没有额外计算成本。

这是一个深刻的系统设计启示：有时候，最好的优化不是让在线过程更快，而是让在线过程更"聪明"。 与其让Agent每次遇到任务都像新手一样探索，不如让它在离线时做好功课，在线时直接调用知识。

这种"离线投入、在线收益"的哲学在许多领域都有体现。围棋AI在训练时下数百万盘棋来积累经验，但在正式对局时只需要调用这些经验做出快速决策。人类医生在医学院里花了数年时间学习病例，但在临床诊断时往往只需要几分钟。EDV把这个逻辑带到了通用智能体的世界：让多个Agent在离线时反复探索、争论、提炼、验证，把昂贵的不确定性解决过程前置；在线时则像翻阅一本经过严格审校的指南手册，快速、准确地做出判断。

十二、更深层的思考：这不只是AI的问题

读到这篇论文的最后，我意识到EDV框架不仅是一个技术方案，它还触及了一个更普遍的认知问题：我们如何相信自己所"知道"的东西？

人类同样被困在自我确认陷阱里。我们倾向于寻找支持自己观点的证据，忽略反驳的证据。社交媒体算法通过推荐同质化内容来强化我们的偏见。我们每个人都活在自己的信息茧房里，自己生产内容，自己消费内容，自己验证内容，形成一个完美的认知闭环。

EDV给出的解决方案——异构执行、第三方蒸馏、共识验证——其实在人类社会中也有对应物：

异构执行 = 跨学科合作，让不同背景的人从不同角度审视同一个问题
第三方蒸馏 = 独立的元分析、系统综述、批判性评论
共识验证 = 同行评审、科学共同体的重复实验验证

科学方法之所以有效，不是因为它总能得出正确答案，而是因为它内置了与EDV类似的结构：观察（Execute）、理论建构（Distill）、实验验证（Verify）。当一个理论通过了多组独立实验的验证时，我们才认为它"大概率是对的"。

但现代社会中的很多领域——尤其是社交媒体和算法推荐——正在失去这种结构。我们既是内容的生产者，又是消费者，又是评判者。我们的"经验"（对世界的认知）在这种闭环中被不断自我确认、自我强化，与EDV论文中描述的单Agent记忆污染如出一辙。

从这种角度看，EDV不仅是一个AI技术框架，它也是一种认知伦理的提案：在构建知识的过程中，执行、解读、验证应该分离，多样性和共识应该被制度化，而不是仅仅依赖个体的"诚实"或"聪明"。

十三、结语：在闭环中凿一扇窗

EDV框架的标题用了"Escaping"（逃离）这个词，暗示自我确认陷阱是一种需要逃脱的状态。但我觉得更准确的说法是：它不是在逃离，而是在闭环中凿了一扇窗。

单Agent经验学习的闭环不是错误，它是一种自然的、简洁的工程设计。但就像津巴多的监狱实验一样，当执行和评判的权力集中在同一个主体手中时，系统的输出会不可避免地偏向自我确认。这不是缺陷，这是结构。

EDV的解决方案不是否定这个闭环，而是承认它的局限，然后引入外部视角来打破它。多Agent的异构执行提供了认知多样性，第三方的蒸馏引入了元认知的审视，共识验证设置了质量门槛。三阶段分离，不是为了复杂而复杂，而是因为在经验这个问题上，结构比个体更诚实。

论文的最后一句话给出了一个值得反复品味的结论："稳健的智能体进化不仅依赖于更丰富的记忆，还依赖于在经验进入记忆之前如何构建经验。"（Robust agent improvement depends not only on richer memory, but also on how experience is constructed before it enters memory.）

这不仅是AI的课题，也是我们每个人的课题。

参考文献

Zhu, S., Qi, Y., Wang, Y., Li, J., Song, C., Shi, Y., Miao, Y., Gao, H., & Zhang, K. (2026). Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning. arXiv:2606.24428.