当AI学会"自我欺骗":一个关于经验、偏见与共识的故事
一、引子:一个古老的心理学实验
1981年,心理学家菲利普·津巴多进行了一项后来被反复引用的实验。他让一群学生分别扮演"囚犯"和"看守",在一个模拟监狱环境中生活。实验只进行了六天就被迫终止——因为"看守"们迅速进入角色,开始虐待"囚犯",而"囚犯"们也真的陷入了抑郁和绝望。
这个实验最可怕的地方不是有人变坏了,而是每个人都真心认为自己的行为是合理的。看守觉得自己只是在维持秩序,囚犯觉得自己确实犯了错。没有人觉得自己在演戏,每个人都活在一种自我确认的逻辑闭环里。
这就是一个关键的认知现象:当一个人同时扮演执行者和评判者的角色时,他几乎不可避免地会得出对自己有利的结论。 这不是道德问题,这是结构性问题。
几十年后,这个古老的发现正在以一种全新的方式困扰着我们——在人工智能的世界里。
---
二、AI的记忆困境:为什么它需要一个"经验系统"
想象一个场景:你让AI助手帮你订一张机票。它打开网站,输入出发地和目的地,选择日期,比价,付款,一切顺利。一周后,你又让它订一张酒店。这一次,它遇到了一个从未见过的页面布局,卡住了,试错了好几次才完成。第三次,你让它同时订机票和酒店,还要安排接送机——一个涉及多个网站的复杂工作流。它在一半的时候忘记了之前选好的酒店,不得不重新开始。
对人类来说,这三次经历都会变成"经验":第一次告诉我"机票可以这样订",第二次告诉我"遇到陌生页面时,先尝试这些通用的导航策略",第三次让我明白"多步骤任务需要记录中间状态,不能全靠短期记忆"。下次遇到类似任务,我会自然而然地调用这些经验,做得更好、更快。一个经常出差的人,订票流程会越来越顺畅,不是因为他读到了新说明书,而是因为他"有经验"。
但传统的AI没有这种能力。每次对话结束,它的上下文窗口被清空,一切归零。它不会从成功中学习,也不会从失败中总结。每一次都是全新的、孤立的任务,带着同样的天真和无知。同样的错误会反复犯,同样的陷阱会反复踩,就像一个永远被擦除记忆的西西弗斯,每次都推着同一块石头上山顶。
这就是"经验学习"(Experience Learning)这个概念兴起的背景。研究者开始思考:如果AI能把每次交互的轨迹——成功或失败——提炼成可复用的记忆,存储起来,在未来的任务中检索调用,它能不能像人类一样持续进化?
这个思路听起来很美好。但就像很多听起来美好的事情一样,魔鬼藏在细节里。当研究者开始认真实现这个构想时,他们发现了一个令人不安的现象:AI确实在积累经验,但它积累的经验不一定是对的。更糟的是,一旦错误经验被写入记忆,它会像病毒一样传播——被反复调用、反复强化、反复污染未来的决策。记忆不是越多越好,错误的记忆比没有记忆更可怕。
---
三、自我确认陷阱:当AI成为自己的裁判
让我们回到那个订机票的AI。假设这一次,它犯了一个错误:它试图用一张旅行代金券来修改已经订好的机票。这在网站规则中是不允许的,但AI并不知道这一点。它在页面上尝试了很多次,每次都得到了同样的错误提示,但因为它没有理解这个隐藏的规则,它最终把整个过程记录为一次"尝试修改机票但失败了"的经验。
问题在于:谁来判定这个经验是对还是错?
在现有的经验学习系统中,答案是:AI自己。它执行任务,观察结果,自己总结"学到了什么",然后自己判断"这个经验值不值得写入记忆"。这是一个闭环:同一个智能体同时是运动员和裁判。
这就是论文中提出的核心概念——自我确认陷阱(Self-Confirmation Trap)。
用一个更日常的类比:想象一个学生做完一套数学题,然后自己批改。他可能会在某道题上用了错误的方法,但因为他的理解本身就是错的,他看自己的答案会觉得"这看起来合理啊"。他把这个错误的方法当作"经验"记在了笔记本里,下次遇到同类题,他翻开笔记,强化了这个错误。更可怕的是,如果这个学生还负责编写全班的学习资料,他的错误方法会被传播给所有同学。
AI也是一样的。当它同时负责执行和验证时,那些错误但自洽的轨迹会被误判为有效经验。这里的关键词是"自洽"——不是错误到一目了然,而是错误得很有逻辑,每一步推导都看起来合理,只是基于了错误的前提。就像一个建立在沙子上的房子,从外面看结构完整,但根基是虚的。更可怕的是,一旦写入记忆,这些错误会在未来的任务中被反复检索、调用、强化,形成累积性的错误。就像一个越来越自信的自恋者,每次照镜子都觉得自己更好看了一点。
论文举了一个具体的例子:在航班改签任务中,一个单Agent系统反复尝试使用旅行代金券来修改已有预订,但从未意识到一个隐藏的环境约束——代金券不能用于修改现有预订。因为这个行为在每一步看起来都是"合理的"(页面没有崩溃,系统有反馈),Agent将这个错误的轨迹记录为经验,导致未来遇到类似任务时重蹈覆辙。
这不是AI的"坏",这是结构性的盲区。
---
四、问题的本质:为什么"自己检查自己"不够
有人可能会问:那让AI在执行之后再检查一遍不就行了吗?让它在写入记忆之前,先反思一下"我刚才做得对吗?",甚至让它"多问自己几个为什么"。论文中的实验告诉我们:这不够,远远不够。
在消融实验中,研究者给单Agent系统增加了明确的自我验证机制——让Agent在总结经验之前,先对自己的轨迹进行一次批判性审查。他们甚至尝试了多轮自我反思,让Agent反复质疑自己的结论。结果如何?性能不仅没有提升,反而略有下降。就像一个陷入偏执的人,越是反复检查自己的逻辑,反而越确信自己是对的——因为他检查的时候用的是同一套有问题的逻辑。
为什么?因为自我检查没有改变根本的问题:检查者和执行者共享同一套认知框架。 就像一个用错误地图导航的人,让他再检查一遍地图,他不会发现自己的地图是错的,他只会越看越有把握。或者像一个戴着有色眼镜的人,让他描述自己看到的颜色,他不会意识到自己的眼镜是红色的,他只会真诚地认为"世界本来就是红色的"。论文用一个精妙的数学表述来刻画这个现象:设 $\pi_\theta$ 是Agent的策略,$c(\tau)$ 表示轨迹 $\tau$ 的真实正确性(0或1),$v_{\pi_\theta}(\tau)$ 表示Agent自己判断轨迹是否适合作为经验。在单Agent闭环中,执行和评估统计上依赖同一个策略,所以错误轨迹被错误认可的概率 $P(v_{\pi_\theta}(\tau)=1 | c(\tau)=0)$ 被显著抬高。这不是一个可以靠"更认真"来解决的问题,这是结构性的。
---
五、EDV:一种全新的工作哲学
既然问题的根源是"同一个人既是运动员又是裁判",那么解决方案的思路也就清晰了:把这两个角色分开。
但这还不够。论文提出的EDV框架(Execute-Distill-Verify)走得更远。它不仅分开角色,还引入了一个完整的协作机制,把经验学习从"一个人闭门造车"变成"一群人共同讨论"。
让我们用一个比喻来理解这个框架。想象一个科研团队要做一项研究:
- Execute(执行):派几个不同背景的研究员各自独立做实验,收集数据。他们可能有不同的方法、不同的假设,这样产生的数据更丰富、更多样。
- Distill(蒸馏):找一个独立的分析师,他不参与任何实验,只看所有研究员的数据,比较不同方法的优劣,提炼出"什么条件下什么方法有效"的一般性结论。
- Verify(验证):让最初做实验的研究员们一起来评审这些结论,只有大家都认可的经验才被写入团队的共享知识库。
---
六、Execute:为什么需要"异构"
在Execute阶段,EDV让多个异构Agent并行探索同一个任务空间。这里的"异构"是关键——不是同一个模型跑十次,而是不同的模型、不同的策略、不同的认知方式来解决问题。
论文中的实验使用了三个不同的模型:Mimo-V2-Flash、GLM-4.7-FP8和MiniMax-M2.1。这些模型有不同的训练数据、不同的架构、不同的优化目标,它们对同一个任务会有不同的理解方式和解决路径。
为什么要强调异构?想象一个更形象的例子:你让三个人去同一个迷宫找出口。如果三个人都用"一直靠左走"的策略,他们的路径几乎会完全重叠,没有新信息。但如果一个人靠左走,一个人随机走,一个人试图从高处俯瞰全局,他们会探索到迷宫的不同角落,带回更全面的信息。
在EDV中,异构执行的目的不是"投票选出最好的答案",而是暴露不同成功和失败的模式,为后续的蒸馏提供丰富的对比素材。单一模型的多次尝试可能困在同一个认知陷阱里,而异构模型的并行探索能打破这种局限。实际上,EDV在实验中每次只采样两个Agent作为执行组,而不是越多越好。这个设计很精妙:它追求的是质量而非数量的多样性,是两个足够不同的视角之间的碰撞,而不是一堆相似观点的重复。
论文特别指出,实验结果显示,仅仅增加同质模型的数量(比如同一个模型跑多次)效果有限,而引入真正的异构性才能显著扩展解空间的覆盖范围。这个发现呼应了认知科学中的一个经典结论:群体的智慧不来自于人数,而来自于视角的多样性。
---
七、Distill:引入"第三方视角"
Execute阶段产生了多个候选轨迹,有些是成功的,有些是失败的,有些是部分成功但包含关键错误的。现在的问题是:如何从这些轨迹中提取真正有用的经验?
传统的做法是:让执行者自己总结。但正如我们前面讨论的,执行者带着自己的视角偏见,会倾向于选择性地解读证据,强化自己已有的认知框架。
EDV的做法是:引入一个独立的第三方蒸馏Agent。这个蒸馏Agent不参与任何任务执行,它的唯一工作就是对比分析所有执行者产生的轨迹,从中提炼出可复用的经验。
这个设计有一个深刻的认知科学基础。在心理学中,这类似于"元认知"(metacognition)——不是直接解决问题,而是站在更高层审视多个解决问题的过程。第三方视角能够避免执行者中心的自我总结偏差,因为它没有被任何一次执行的具体情境所绑定,可以更客观地看到不同路径之间的差异和共性。
具体来说,蒸馏Agent的工作方式是对比性分析:它不只看"哪条轨迹成功了",而是看"为什么这条成功了而那条失败了"、"不同路径在什么节点上出现了分歧"、"哪些约束条件被某些Agent发现但被另一些忽略了"。这种对比视角能提取出更深层的、更一般的经验,而不是表面的"成功路径"。
举个例子:假设三个异构Agent都在尝试修改一个航班预订。Agent A直接成功了,Agent B尝试用代金券支付但被拒绝了,Agent C在支付页面卡住了最后放弃了。一个执行者自己总结可能会说"我成功修改了航班,方法是进入订单管理页面、选择修改、重新支付"。但第三方蒸馏者通过对比三条轨迹,会提炼出更深层的东西:"修改现有预订需要直接支付,不能使用代金券;如果看到支付失败,应该检查支付方式是否支持该操作类型;订单管理页面的入口在不同网站上位置不同,但通常都在账户菜单下"。这些经验比任何单一轨迹都更有价值,因为它们是通过跨轨迹的差异发现的。
用一个生活化的类比:假设你让三个朋友分别去同一家新餐厅吃饭。回来后,不是让每个人写自己的感想,而是让一个没去过的人听三个人的描述,然后总结"这家餐厅什么值得点、什么要避开、什么时间去最合适"。这个没去过的人反而能给出更客观、更有用的建议,因为他没有被自己那顿饭的具体体验所局限。
---
八、Verify:共识作为质量的守门人
Distill阶段产生了候选经验,但这里还有一个问题:蒸馏Agent本身也是一个AI模型,它也有自己的认知局限和偏见。它可能也会犯错,也会遗漏关键信息。
所以EDV引入了第三个阶段——Verify。这是整个框架中最精妙的设计,也是直接打断"自我确认陷阱"的关键机制。
Verify阶段的做法是:让原始执行者群体对候选经验进行交叉验证,只有获得共识通过的经验才能写入记忆。
具体来说,对于每一条候选经验,EDV会让所有执行者(注意,是执行者,不是蒸馏者)分别给出赞成或反对的投票。如果所有执行者一致赞成,这条经验进入共享记忆库;如果只有部分执行者赞成,它进入赞成者的私人记忆库;如果没有人赞成或多数反对,它就被丢弃。
这是一种"严格默认拒绝"(strict default-reject)策略:不信任是默认的,只有通过共识的严格检验才能被接纳。
为什么这个设计有效?回到我们前面的核心洞察:单Agent的问题在于"执行者和评判者共享同一套认知框架"。但在Verify阶段,虽然评判者就是执行者,但评判的对象不是他们自己的轨迹,而是蒸馏Agent从多个轨迹中提炼出的候选经验。评判者需要用自己在执行过程中获得的"第一手体验"来检验这个经验是否与他们自己的观察一致。
换句话说,每个执行者都在用自己的"亲身经历"来验证一个"他人总结的抽象结论"。这种"个人经验 vs. 抽象经验"的对照,比"自我反思"更有判别力。因为多个执行者的亲身经历来自不同的探索路径,如果他们都认可同一个抽象经验,说明这个经验具有跨路径的普遍性。
论文中的消融实验清晰地验证了这个设计的价值。当研究者逐步从单Agent系统过渡到完整EDV系统时,他们发现了一个递进的效果:
1. 单Agent + 自我验证:几乎没有改善,甚至略有下降 2. 单Agent + 独立验证者:只有1.2个百分点的提升,因为单一轨迹缺乏对比参考 3. 多Agent执行 + 第三方蒸馏:显著提升,因为异构执行提供了丰富的对比素材 4. 加上共识验证:最终阶段,进一步过滤残留错误,达到最优性能
这证明了EDV的优势不是来自某个单一模块,而是来自异构执行、对比蒸馏、共识验证三者之间的协同效应。
---
九、记忆的层次:共享与私有的智慧
EDV不仅设计了经验的生产流程,还设计了经验的存储结构。它维护两种记忆库:
共享记忆库:存放那些通过所有执行者一致共识的"通用经验"。这些经验因为获得了最广泛的认可,被认为具有较高的可靠性和可复用性,适用于各种任务和Agent。
私人记忆库:存放那些只被部分执行者认可的经验。这些经验可能只适用于特定类型的任务、特定风格的Agent,或者特定场景下的边缘情况。它们不够"通用",但仍有价值。
这种层次化的记忆结构不是人为规定的,而是直接来源于Verify阶段的共识投票结果。 unanimously approved → shared memory;partially approved → private memory;rejected → discarded。这种设计让记忆的分类与质量评估天然地绑定在一起,不需要额外的标注成本。
论文还引入了一个能力矩阵(Ability Matrix)的概念。在推理时,系统会根据任务类型匹配最合适的求解器(能力矩阵记录了不同Agent在不同任务类型上的历史表现),然后先检索共享记忆,如果不够再检索该求解器的私人记忆。这种分层检索既保证了通用经验的优先利用,又保留了个性化经验的补充能力。
实验数据显示,共享记忆的检索率为72.3%,每次命中带来3.2%的成功率提升,对总体性能贡献2.3%。私人记忆在31.8%的任务中被检索,每次命中带来1.8%的提升,总体贡献0.6%。两者加起来贡献2.9%,说明私人记忆确实在覆盖共享记忆无法处理的边缘案例,这种层次结构不能被扁平化替代。
---
十、数字的证言:EDV到底强在哪里
理论分析再漂亮,也需要实验来验证。论文在三个具有代表性的长周期Agent基准上测试了EDV:
τ²-bench:真实世界的复杂任务,涉及客服、零售、旅行等场景中的多步推理和约束满足。
Mind2Web:网页交互任务,要求Agent在真实网站上执行复杂的操作序列。
MMTB:多模态工具使用基准,涉及跨工具、跨模态的复杂任务编排。
在τ²-bench上,EDV的平均Pass@1达到86.6,显著优于Router(83.5)和Judge(81.5),而单模型无记忆基线(NM)仅达到76.4-79.6。这意味着EDV不仅优于其他多Agent策略,也大幅优于Agent自身的原生能力。
在Mind2Web的跨任务、跨网站、跨域设置下,EDV同样保持了强大的泛化性能。在MMTB上,EDV总体得分58.10,再次超越所有基线。
但数字之外,有两个实验特别值得注意,它们分别回答了"EDV的记忆真的更好吗"和"错误记忆真的有害吗"这两个关键问题。
记忆质量人工审计:研究者对实际存储在记忆库中的条目进行了人工质量评估,采用5分制评分。结果显示,EDV在所有维度上都全面优于单Agent基线RB(Reasoning Bank):正确性从3.72提升到4.41,可操作性从3.58提升到4.32,特异性从3.64提升到4.27。同时,噪声/幻觉评分从1.21显著降低到0.63,潜在危害从1.08降到0.51。这直接证明了EDV的Execute-Distill-Verify管道确实能在记忆写入之前有效过滤低质量信息。换句话说,EDV不仅赢得了比赛,它记住的"笔记"本身也更可靠、更有用、更少幻觉。
记忆污染敏感性测试:研究者模拟了自我确认陷阱的场景,在RB基线中注入10%的错误但自洽的经验(如错误的支付规则)。结果,RB在τ²-bench RETAIL域上的Pass@1从82.5暴跌到77.2。5.3个百分点的降幅对于一个基准模型来说是灾难性的。这提供了强有力的证据,说明自我确认陷阱在现实世界中确实会造成严重伤害——而且只需要10%的污染就能让整个系统明显退化。
---
十一、效率的悖论:为什么"更复杂"反而"更高效"
读到这里,你可能会觉得:EDV用了三个模型,跑了多个阶段,看起来比单Agent复杂得多,会不会效率更低?
论文给出了一个有趣的答案:EDV实际上减少了在线推理的token消耗。
在RETAIL子集上,EDV相比ReasoningBank减少了平均24.5%的推理token消耗,同时取得了更好的性能。这是怎么做到的?
关键在于EDV将一部分长周期问题求解的成本从"在线反复试错"转移到了"离线高质量经验构建"。当Agent拥有更可靠、更丰富的记忆时,它在面对新任务时不需要从头探索,而是可以直接调用经验快速找到正确路径。这就像经验丰富的医生看病更快——不是因为他思考得更快,而是因为他不需要做那么多不必要的检查。
另外,经验构建阶段是离线的,而且可以并行化,不会引入在线推理时的多Agent协调开销。能力矩阵和记忆层次都复用了管道中已有的数据,推理时只需要轻量级的查询,没有额外计算成本。
这是一个深刻的系统设计启示:有时候,最好的优化不是让在线过程更快,而是让在线过程更"聪明"。 与其让Agent每次遇到任务都像新手一样探索,不如让它在离线时做好功课,在线时直接调用知识。
这种"离线投入、在线收益"的哲学在许多领域都有体现。围棋AI在训练时下数百万盘棋来积累经验,但在正式对局时只需要调用这些经验做出快速决策。人类医生在医学院里花了数年时间学习病例,但在临床诊断时往往只需要几分钟。EDV把这个逻辑带到了通用智能体的世界:让多个Agent在离线时反复探索、争论、提炼、验证,把昂贵的不确定性解决过程前置;在线时则像翻阅一本经过严格审校的指南手册,快速、准确地做出判断。
---
十二、更深层的思考:这不只是AI的问题
读到这篇论文的最后,我意识到EDV框架不仅是一个技术方案,它还触及了一个更普遍的认知问题:我们如何相信自己所"知道"的东西?
人类同样被困在自我确认陷阱里。我们倾向于寻找支持自己观点的证据,忽略反驳的证据。社交媒体算法通过推荐同质化内容来强化我们的偏见。我们每个人都活在自己的信息茧房里,自己生产内容,自己消费内容,自己验证内容,形成一个完美的认知闭环。
EDV给出的解决方案——异构执行、第三方蒸馏、共识验证——其实在人类社会中也有对应物:
- 异构执行 = 跨学科合作,让不同背景的人从不同角度审视同一个问题
- 第三方蒸馏 = 独立的元分析、系统综述、批判性评论
- 共识验证 = 同行评审、科学共同体的重复实验验证
但现代社会中的很多领域——尤其是社交媒体和算法推荐——正在失去这种结构。我们既是内容的生产者,又是消费者,又是评判者。我们的"经验"(对世界的认知)在这种闭环中被不断自我确认、自我强化,与EDV论文中描述的单Agent记忆污染如出一辙。
从这种角度看,EDV不仅是一个AI技术框架,它也是一种认知伦理的提案:在构建知识的过程中,执行、解读、验证应该分离,多样性和共识应该被制度化,而不是仅仅依赖个体的"诚实"或"聪明"。
---
十三、结语:在闭环中凿一扇窗
EDV框架的标题用了"Escaping"(逃离)这个词,暗示自我确认陷阱是一种需要逃脱的状态。但我觉得更准确的说法是:它不是在逃离,而是在闭环中凿了一扇窗。
单Agent经验学习的闭环不是错误,它是一种自然的、简洁的工程设计。但就像津巴多的监狱实验一样,当执行和评判的权力集中在同一个主体手中时,系统的输出会不可避免地偏向自我确认。这不是缺陷,这是结构。
EDV的解决方案不是否定这个闭环,而是承认它的局限,然后引入外部视角来打破它。多Agent的异构执行提供了认知多样性,第三方的蒸馏引入了元认知的审视,共识验证设置了质量门槛。三阶段分离,不是为了复杂而复杂,而是因为在经验这个问题上,结构比个体更诚实。
论文的最后一句话给出了一个值得反复品味的结论:"稳健的智能体进化不仅依赖于更丰富的记忆,还依赖于在经验进入记忆之前如何构建经验。"(Robust agent improvement depends not only on richer memory, but also on how experience is constructed before it enters memory.)
这不仅是AI的课题,也是我们每个人的课题。
---
参考文献
Zhu, S., Qi, Y., Wang, Y., Li, J., Song, C., Shi, Y., Miao, Y., Gao, H., & Zhang, K. (2026). Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning. arXiv:2606.24428.
标签
#EDV #SelfConfirmationTrap #AgenticExperienceLearning #MultiAgentSystems #LLM #经验学习 #自我进化 #认知偏差 #共识验证 #智能体框架
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens