深度解读:LLM 为什么做不了因果发现?一个数学证明和一条逃生通道
你是一个医生。你观察到:吃药的患者恢复率更高。于是你得出结论——药有效。
等等。有没有可能是年纪大的患者既更愿意吃药,又更难恢复?年龄才是那个隐藏的第三变量,药只是个无辜的旁观者。
这就是因果发现的核心难题:从相关性推断因果性。人类科学家花了几百年学会区分"相关"和"因果",现在我们想让大语言模型也学会这件事。
结果呢?GPT-4 在 Corr2Cause 基准测试上只拿到 29.1 的 macro-F1。连抛硬币都不如。
但更关键的问题是:为什么?是因为数据不够?模型不够大?提示词写得不好?
这篇来自 IIT Delhi 和帝国理工学院的论文给出了一个令人不安的答案:不是任何工程问题,而是一个数学上的根本障碍。
---
近失陷阱:99% 相同,100% 相反
先理解一个核心概念——"近失对"(near-miss pair)。
考虑两个因果图:
- 链式:V₁ → V₂ → V₃(V₁ 通过 V₂ 影响 V₃)
- 叉式:V₁ ← V₂ → V₃(V₂ 同时影响 V₁ 和 V₃)
但它们的因果含义截然相反:链式中干预 V₁ 会影响 V₃,叉式中不会。
当变量数 d 增长时,近失对之间的文本重叠度高达 1 - O(1/d²)。在 d=24 时,超过 99% 的 token 完全相同,只有不到 1% 的 token 携带了区分信息。
这就像两篇论文,标题、摘要、方法、结果都一模一样,只有结论段最后一句"有效"和"无效"不同——而你要根据全文判断哪个是对的。
---
核心定理:核障碍(Kernel Obstruction)
论文的数学核心是核障碍定理(Theorem 1)。它的直觉可以这样理解:
SFT、DPO、ICL 这三种主流训练范式,本质上都产生"核类型预测器"(kernel-type predictor)。这类预测器的工作方式是:在某个高维特征空间(RKHS)中,根据输入的相似度来做判断。
问题在于:近失对的核相似度 δ = O(1/d²) → 0。也就是说,当变量数增长时,两个需要给出完全相反答案的输入,在核空间中的距离趋近于零。
要在核空间中把这两个几乎重合的点分开,你需要模型的内部表示无限增长——但这恰恰违反了这些训练方法能够工作的前提条件(有界范数)。
这不是一个可以修补的 bug,而是一个结构性限制。就像你不能用温度计来测量重量——工具的物理原理决定了它测不了那个量。
引理 1(近失核相似度):近失对共享长度为 ℓ 的 token 前缀,总长度 L = O(d²),核相似度 δ ≤ C(L-ℓ)/L = O(1/d²) → 0。
推论:无论你怎么调参、加数据、换模型架构,只要训练范式属于 SFT/DPO/ICL,这个障碍就存在。
---
逃生通道:让 LLM 当证人,不当法官
定理不仅告诉你哪里走不通,还暗示了唯一的出路:把离散的图选择决策移出核预测器。
论文提出的方案叫 A-CBO(Agentic Causal Bayesian Optimization),核心思路极其优雅:
1. 冻结的 LLM 充当干预预言机:它不回答"哪个图是对的",只回答简单的二元问题——"对 V₁ 做干预后,V₃ 会变吗?" 2. 外部贝叶斯循环:根据 LLM 的回答,在概率单纯形 Δⁿ⁻¹ 上更新对候选图的信念 3. 对数收敛:因为贝叶斯更新发生在 RKHS 之外的空间,A-CBO 在 O(log n) 轮内收敛到正确图
关键洞察:LLM 回答干预问题的能力不受核障碍影响。
引理 2(干预核分离):干预查询"Vⱼ 在 do(Vᵢ=v) 下会变吗?"产生的回答(是/否),其核表示的相似度 ≤ 1-ρ,其中 ρ ∈ (0,1] 是常数,不随 δ → 0 而趋零。
为什么?因为干预查询的答案取决于图的结构差异(Vᵢ 和 Vⱼ 之间是否有有向路径),而不是观测相似度。结构差异和观测相似度是解耦的——这正是因果推断的精髓。
打个比方:你分不清两个双胞胎谁是谁(观测近失),但如果你问"你昨天去了图书馆吗?",他们的回答会截然不同(干预查询)。你不需要能区分他们的脸,只需要问对问题。
---
实验验证:不训练,反而更强
论文在两个基准上验证了 A-CBO:
Corr2Cause(d=2-6,7524 个测试样本):
- A-CBO 使用冻结的 LLM(零梯度更新),匹配了微调基线的表现
- GPT-4 零样本只有 29.1 F1,A-CBO 直接拉到可比水平
- 这是论文新提出的基准,专门测试大规模因果图上的细粒度区分能力
- A-CBO 平均比 SFT 和 DPO 高出 24%
- 优势随图复杂度单调增长——越难的问题,A-CBO 领先越多
这就像一个实习医生配合正确的诊断流程,比一个资深医生凭直觉下结论更可靠。
---
更深层的启示
这篇论文的意义远超因果发现本身。
1. 能力边界需要数学刻画,不只是经验观察。 我们知道 LLM 做不了因果推断,但"做不了"和"数学上不可能"是两回事。前者暗示"再努力一下也许行",后者告诉你"换路"。
2. 智能体范式的理论正当性。 A-CBO 的成功不是偶然的工程技巧——它是对核障碍定理的直接回应。把 LLM 放在正确的位置(回答事实问题),而不是错误的位置(做全局决策),是定理本身指出的唯一出路。
3. "近失"是一个普遍现象。 不仅仅是因果图,任何需要从高度相似的输入中提取微小差异信号的任务(欺诈检测、医疗诊断、法律推理)都可能面临类似的核障碍。
4. 冻结模型 + 外部循环 > 微调模型。 在这个任务上,不更新权重的方案击败了更新权重的方案。这挑战了"微调是万能的"这一默认假设。
---
局限与未来
论文坦诚地讨论了局限:
- A-CBO 依赖 LLM 能正确回答干预查询,但 LLM 对干预的理解本身可能不完美
- 当前实验限于因果图分类,尚未扩展到从数据中直接发现图结构
- 贝叶斯循环的计算开销在超大规模候选图集合中可能成为瓶颈
---
一句话总结
LLM 做不了因果发现,不是因为笨,而是因为数学上不可能——但如果你让它只回答自己擅长的问题(干预效果),让外部的贝叶斯循环来做决策,它就能在不可能中找到一条出路。
论文链接:https://arxiv.org/abs/2605.27567