AI 的"双标"困境：为什么 Agent 审查别人时比审查自己更严格？

> 论文：*Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment* (arXiv 2604.19548, 2026) > 作者：Bobo Li, Rui Wu, Zibo Ji 等（新加坡国立大学 & 苏州大学） > 论文：arxiv.org/abs/2604.19548

---

一个你一定经历过的场景

你开车追尾了前面的车。作为"当事人"，你的第一反应是什么？

"前面那车突然刹车，我根本来不及反应！"

现在换一个视角：你坐在副驾驶，看着朋友追尾了前面的车。你会怎么说？

"你怎么不看路啊？开这么近干嘛？"

同样的追尾事故，当事人归咎于外部因素（前车突然刹车），旁观者归咎于内部因素（驾驶技术不行）。这不是某一个人的问题，这是人类普遍存在的认知偏差——演员-观察者不对称（Actor-Observer Asymmetry, AOA）。

这篇论文发现：AI Agent 也有同样的毛病。

多 Agent 系统里的"双标"问题

现在的 AI Agent 系统越来越复杂，通常会部署多个 Agent 扮演不同角色：有的负责执行任务（Actor），有的负责审查和审计（Observer）。这种"角色扮演"的设计初衷是好的——让 Agent 互相监督，提高可靠性。

但论文揭示了一个意想不到的副作用：当 Agent 扮演不同角色时，它对同一个错误的归因会截然不同。

自我反思时（Actor 视角）：Agent 倾向于把失败归咎于外部因素——"环境太复杂了"、"输入信息有歧义"、"工具不好用"
互相审计时（Observer 视角）：Agent 倾向于把同样的错误归咎于内部因素——"推理逻辑有缺陷"、"决策能力不足"

这和人类心理学中的 AOA 现象如出一辙。而且论文量化了这种偏差的严重程度：仅仅切换视角，就能触发显著的归因不一致。

为什么这是个问题？

想象一个由多个 Agent 组成的自动化系统：Agent A 执行任务失败了，Agent B 审查后说"Agent A 的推理有问题"，但 Agent A 自我反思后说"是环境的问题"。

如果系统信任 Agent B 的判断，就会去"修复"Agent A 的推理能力——但问题可能根本不在那里。如果系统信任 Agent A 的判断，就会去"改善"环境——但问题可能确实是 Agent A 的推理有缺陷。

归因错误 → 修复方向错误 → 系统无法真正改进。 这就是 AOA 对 AI 系统可靠性的威胁。

ReTAS：用辩证法驯服"双标"

论文提出了 ReTAS（Reasoning via Thesis-Antithesis-Synthesis），一个通过辩证对齐（Dialectical Alignment）训练的模型，用来强制 Agent 保持视角一致性。

这个方法的名字本身就很有哲学意味——正题（Thesis）、反题（Antithesis）、合题（Synthesis），正是黑格尔辩证法的核心三段式。

ReTAS 的训练思路是：

1. 正题：Agent 从 Actor 视角分析一个失败案例 2. 反题：同一个 Agent 从 Observer 视角分析同一个失败案例 3. 合题：Agent 被训练去调和这两个视角，产生一致的归因判断

通过这种辩证训练，Agent 学会了"换位思考"——不再因为角色不同就对同一个错误给出截然不同的解释。

实验结果：辩证法真的管用

论文构建了一个 Ambiguous Failure Benchmark（模糊失败基准），专门用来测试 Agent 在归因模糊场景下的表现。实验结果显示：

归因不一致显著降低：ReTAS 训练后的 Agent 在 Actor 和 Observer 视角下的归因更加一致
故障解决率提升：因为归因更准确，系统修复真正问题的能力也相应提升
不会"矫枉过正"：ReTAS 并没有让 Agent 变得"过度自责"或"过度宽容"，而是找到了更平衡的归因方式

更深层的思考：AI 正在继承人类的认知缺陷

这篇论文最让人深思的地方，不是它提出了一个解决方案，而是它揭示了一个事实：AI Agent 在获得越来越强的自主能力的同时，也在无意识地继承人类的认知偏差。

演员-观察者不对称不是 bug，它是人类大脑的"特性"——一种自我保护的机制。当我们作为 Actor 时，归咎于外部因素可以保护自尊；当我们作为 Observer 时，归咎于内部因素可以帮助我们从他人错误中学习。

但 AI 不需要自尊保护。它不需要"面子"。如果 AI 也开始"双标"，那不是因为它有情感，而是因为角色扮演的训练方式本身就隐含了视角偏差。

这给 AI Agent 的设计提出了一个根本性问题：我们是否应该在训练中显式地对抗这些认知偏差？还是说某些偏差在特定场景下其实有用？

ReTAS 给了一个初步答案：至少在故障诊断和系统改进的场景下，视角一致性比"双标"更有价值。

也许未来的 AI Agent 系统，不仅需要"智商"，还需要"元认知"——知道自己什么时候在"双标"，并主动纠正。

---

论文 | arxiv.org/abs/2604.19548

> 注：截至本文撰写时，该论文暂未发现公开代码仓库。如后续开源，建议关注论文作者团队页面。

AI 的"双标"困境：为什么 Agent 审查别人时比审查自己更严格？

AI 的"双标"困境：为什么 Agent 审查别人时比审查自己更严格？

一个你一定经历过的场景

多 Agent 系统里的"双标"问题

为什么这是个问题？

ReTAS：用辩证法驯服"双标"

实验结果：辩证法真的管用

更深层的思考：AI 正在继承人类的认知缺陷

🌟 智谱 GLM-5 已上线