CRAwDAD Causal Reasoning Augmentation with Dual-Agent Debate

✨步子哥 (steper) • 2026年01月22日 12:38 • 0 次浏览

CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate

CRAwDAD

Causal Reasoning Augmentation with Dual-Agent Debate

Finn G. Vamosi & Nils D. Forkert | University of Calgary

摘要： CRAwDAD 是一个双智能体辩论框架，旨在增强推理语言模型（RLMs）的因果推理能力。通过模拟人类在假设检验中的对话过程，两个智能体（一个提供推理，一个批判逻辑）相互辩论、修正，直到达成共识。实验表明，该方法在 CLadder 数据集上显著提升了模型准确率，特别是在复杂的反事实推理任务上表现优异。

1. 背景与动机

因果推理是人类的核心认知能力，但对大型语言模型（LLMs）来说极具挑战性。现有的 LLMs 往往表现出“因果鹦鹉”的行为，即仅仅复述训练数据中的相关性模式，而非进行真正的形式化逻辑推理。

核心洞察： 人类的因果推理往往类似于不同假设之间的“内部对话”。CRAwDAD 将这种隐性对话显式化，利用多智能体辩论（Multi-Agent Debate, MAD）来模拟这一过程。

推理语言模型（RLMs，如 Qwen3 和 DeepSeek-R1）在逐步解决问题和逻辑推演方面表现出色，这使得它们成为构建辩论系统的理想组件。

2. CRAwDAD 架构与设计思想

CRAwDAD 采用双智能体结构，无需额外的裁判模型。其设计核心在于利用异构模型的互补优势进行对抗性辩论。

Agent A (Proposer)

提供结构化因果推理

例如：提取因果图，形式化查询

⇄
批判与修正

Agent B (Critic)

审查逻辑缺陷

挑战逻辑，指出谬误

设计亮点：

异构性： 使用不同的模型（Qwen3 vs DeepSeek-R1）作为辩论者。这确保了视角的多样性，避免了单一模型陷入同样的思维定势。
显式置信度建模： 每个智能体在给出答案时附带 0.0-1.0 的置信度分数。这有助于分析说服动力学，并在辩论中修正那些“自信但错误”的答案。
提示工程策略： 初始提示指导模型遵循7步因果推理流程，包括提取因果图、确定查询类型、形式化查询等，防止模型仅依赖语言相关性。

3. 辩论流程

辩论遵循严格的结构化协议，以确保效率和质量：

初始响应: 随机选择一个智能体提供因果推理答案及置信度。
批评阶段: 另一个智能体分析前者的回答，寻找逻辑漏洞或计算错误。
防卫或修正: 第一个智能体根据批评进行辩护或修正其结论。
早期停止: 如果两个智能体达成一致，辩论立即结束。
最大轮次: 如果未达成一致，辩论通常限制在4轮以内。

        

这种迭代机制迫使模型在面对挑战时重新审视其内部推理链，类似于科学讨论中的同行评审过程。

4. 实验设置与数据集

数据集： CLadder，这是一个专门设计用于评估因果推理的基准数据集。它将自然语言问题链接到形式化的因果模型，覆盖了 Pearl 因果阶梯的所有三个层级：

Rung 1 (Seeing): 统计关联问题。
Rung 2 (Doing): 关于行为效果的干预问题。
Rung 3 (Imagining): 关于替代现实的反事实问题（最难）。

模型： Qwen3-32B 和 DeepSeek-R1-Distill-Qwen-32B。

5. 实验结果与性能

实验结果证明，多智能体辩论显著提升了 RLMs 的因果推理性能。即使性能较强的模型也能在与较弱模型的辩论中获益。

模型	任务类型	单智能体准确率	双智能体辩论准确率	提升幅度
DeepSeek-R1	Overall	78.03%	87.45%	+9.42%
DeepSeek-R1	Counterfactual	67.94%	80.04%	+12.10%
Qwen3	Overall	84.16%	89.41%	+5.25%
Qwen3	Counterfactual	71.53%	80.35%	+8.82%

关键发现：

在最具挑战性的反事实推理任务上，提升幅度最大。这说明辩论机制特别有助于处理复杂的、需要考虑“如果...会怎样”的场景。
DeepSeek-R1 更容易被说服，经常在 Qwen3 的论证下修正错误的初始答案。
模型通常很难在 65-80% 的中间区间内表达置信度，倾向于极端的自信或不确定。

6. 结论与未来方向

CRAwDAD 展示了推理模型作为因果推理多智能体系统构建模块的巨大潜力。通过显式化的辩论过程，模型能够修正由混淆相关性与因果性以及选择偏差（如 Collider Bias）引起的推理错误。

未来工作： 探索更多样化的模型组合、扩展辩论至更复杂的因果图结构，以及优化辩论轮次与计算成本的平衡。