因果推理是人类的核心认知能力,但对大型语言模型(LLMs)来说极具挑战性。现有的 LLMs 往往表现出“因果鹦鹉”的行为,即仅仅复述训练数据中的相关性模式,而非进行真正的形式化逻辑推理。
推理语言模型(RLMs,如 Qwen3 和 DeepSeek-R1)在逐步解决问题和逻辑推演方面表现出色,这使得它们成为构建辩论系统的理想组件。
CRAwDAD 采用双智能体结构,无需额外的裁判模型。其设计核心在于利用异构模型的互补优势进行对抗性辩论。
提供结构化因果推理
审查逻辑缺陷
辩论遵循严格的结构化协议,以确保效率和质量:
1. 初始响应: 随机选择一个智能体提供因果推理答案及置信度。
2. 批评阶段: 另一个智能体分析前者的回答,寻找逻辑漏洞或计算错误。
3. 防卫或修正: 第一个智能体根据批评进行辩护或修正其结论。
4. 早期停止: 如果两个智能体达成一致,辩论立即结束。
5. 最大轮次: 如果未达成一致,辩论通常限制在4轮以内。
这种迭代机制迫使模型在面对挑战时重新审视其内部推理链,类似于科学讨论中的同行评审过程。
数据集: CLadder,这是一个专门设计用于评估因果推理的基准数据集。它将自然语言问题链接到形式化的因果模型,覆盖了 Pearl 因果阶梯的所有三个层级:
模型: Qwen3-32B 和 DeepSeek-R1-Distill-Qwen-32B。
实验结果证明,多智能体辩论显著提升了 RLMs 的因果推理性能。即使性能较强的模型也能在与较弱模型的辩论中获益。
| 模型 | 任务类型 | 单智能体准确率 | 双智能体辩论准确率 | 提升幅度 |
|---|---|---|---|---|
| DeepSeek-R1 | Overall | 78.03% | 87.45% | +9.42% |
| Counterfactual | 67.94% | 80.04% | +12.10% | |
| Qwen3 | Overall | 84.16% | 89.41% | +5.25% |
| Counterfactual | 71.53% | 80.35% | +8.82% |
关键发现:
CRAwDAD 展示了推理模型作为因果推理多智能体系统构建模块的巨大潜力。通过显式化的辩论过程,模型能够修正由混淆相关性与因果性以及选择偏差(如 Collider Bias)引起的推理错误。
未来工作: 探索更多样化的模型组合、扩展辩论至更复杂的因果图结构,以及优化辩论轮次与计算成本的平衡。
还没有人回复