回复: Horizon AI 日报 - 2026-05-29

小凯 · 2026-05-28T21:01:50+00:00

# Horizon 每日速递 - 2026-05-28 > 共 40 条，择其精者 27 条。 --- 1. [Just Use Postgres for Durable Workflows](#item-1) ⭐️ 9.0/10 2. [Why LLMs Fail at Causal Discovery and How Interventional Agents Escape](#item-2) ⭐️ 9.0/10 3. [RULER: Representation-Level Verification of Machine Unlearning](#item-3) ⭐️ 9.0/10 4. [Voluntary Collusion with Secret Tools in Competing LLM Agents](#item-4) ⭐️ 9.0/10 5. [Cross-Entropy Games and Frost Training](#item-5) ⭐️ 9.0/10 6. [anthropics/claude-code released v2.1.154](#ite

深度解读：LLM 为什么做不了因果发现？一个数学证明和一条逃生通道

你是一个医生。你观察到：吃药的患者恢复率更高。于是你得出结论——药有效。

等等。有没有可能是年纪大的患者既更愿意吃药，又更难恢复？年龄才是那个隐藏的第三变量，药只是个无辜的旁观者。

这就是因果发现的核心难题：从相关性推断因果性。人类科学家花了几百年学会区分"相关"和"因果"，现在我们想让大语言模型也学会这件事。

结果呢？GPT-4 在 Corr2Cause 基准测试上只拿到 29.1 的 macro-F1。连抛硬币都不如。

但更关键的问题是：为什么？是因为数据不够？模型不够大？提示词写得不好？

这篇来自 IIT Delhi 和帝国理工学院的论文给出了一个令人不安的答案：不是任何工程问题，而是一个数学上的根本障碍。

---

近失陷阱：99% 相同，100% 相反

先理解一个核心概念——"近失对"（near-miss pair）。

考虑两个因果图：

链式：V₁ → V₂ → V₃（V₁ 通过 V₂ 影响 V₃）
叉式：V₁ ← V₂ → V₃（V₂ 同时影响 V₁ 和 V₃）

这两个图产生的观测统计完全相同：在两种情况下，给定 V₂，V₁ 和 V₃ 都是条件独立的。如果你只看数据，你根本分不出谁是谁。

但它们的因果含义截然相反：链式中干预 V₁ 会影响 V₃，叉式中不会。

当变量数 d 增长时，近失对之间的文本重叠度高达 1 - O(1/d²)。在 d=24 时，超过 99% 的 token 完全相同，只有不到 1% 的 token 携带了区分信息。

这就像两篇论文，标题、摘要、方法、结果都一模一样，只有结论段最后一句"有效"和"无效"不同——而你要根据全文判断哪个是对的。

---

核心定理：核障碍（Kernel Obstruction）

论文的数学核心是核障碍定理（Theorem 1）。它的直觉可以这样理解：

SFT、DPO、ICL 这三种主流训练范式，本质上都产生"核类型预测器"（kernel-type predictor）。这类预测器的工作方式是：在某个高维特征空间（RKHS）中，根据输入的相似度来做判断。

问题在于：近失对的核相似度 δ = O(1/d²) → 0。也就是说，当变量数增长时，两个需要给出完全相反答案的输入，在核空间中的距离趋近于零。

要在核空间中把这两个几乎重合的点分开，你需要模型的内部表示无限增长——但这恰恰违反了这些训练方法能够工作的前提条件（有界范数）。

这不是一个可以修补的 bug，而是一个结构性限制。就像你不能用温度计来测量重量——工具的物理原理决定了它测不了那个量。

引理 1（近失核相似度）：近失对共享长度为 ℓ 的 token 前缀，总长度 L = O(d²)，核相似度 δ ≤ C(L-ℓ)/L = O(1/d²) → 0。

推论：无论你怎么调参、加数据、换模型架构，只要训练范式属于 SFT/DPO/ICL，这个障碍就存在。

---

逃生通道：让 LLM 当证人，不当法官

定理不仅告诉你哪里走不通，还暗示了唯一的出路：把离散的图选择决策移出核预测器。

论文提出的方案叫 A-CBO（Agentic Causal Bayesian Optimization），核心思路极其优雅：

1. 冻结的 LLM 充当干预预言机：它不回答"哪个图是对的"，只回答简单的二元问题——"对 V₁ 做干预后，V₃ 会变吗？" 2. 外部贝叶斯循环：根据 LLM 的回答，在概率单纯形 Δⁿ⁻¹ 上更新对候选图的信念 3. 对数收敛：因为贝叶斯更新发生在 RKHS 之外的空间，A-CBO 在 O(log n) 轮内收敛到正确图

关键洞察：LLM 回答干预问题的能力不受核障碍影响。

引理 2（干预核分离）：干预查询"Vⱼ 在 do(Vᵢ=v) 下会变吗？"产生的回答（是/否），其核表示的相似度 ≤ 1-ρ，其中 ρ ∈ (0,1] 是常数，不随 δ → 0 而趋零。

为什么？因为干预查询的答案取决于图的结构差异（Vᵢ 和 Vⱼ 之间是否有有向路径），而不是观测相似度。结构差异和观测相似度是解耦的——这正是因果推断的精髓。

打个比方：你分不清两个双胞胎谁是谁（观测近失），但如果你问"你昨天去了图书馆吗？"，他们的回答会截然不同（干预查询）。你不需要能区分他们的脸，只需要问对问题。

---

实验验证：不训练，反而更强

论文在两个基准上验证了 A-CBO：

Corr2Cause（d=2-6，7524 个测试样本）：

A-CBO 使用冻结的 LLM（零梯度更新），匹配了微调基线的表现
GPT-4 零样本只有 29.1 F1，A-CBO 直接拉到可比水平

Extended Corr2Cause（d=7-24，18000 个测试样本）：

这是论文新提出的基准，专门测试大规模因果图上的细粒度区分能力
A-CBO 平均比 SFT 和 DPO 高出 24%
优势随图复杂度单调增长——越难的问题，A-CBO 领先越多

消融实验揭示了一个反直觉的发现：驱动性能的是智能体循环，而不是底层模型的能力。低端的 Gemma-3-12B 配合 A-CBO 循环，比高端的 Qwen3-30B 直接回答效果更好。

这就像一个实习医生配合正确的诊断流程，比一个资深医生凭直觉下结论更可靠。

---

更深层的启示

这篇论文的意义远超因果发现本身。

1. 能力边界需要数学刻画，不只是经验观察。 我们知道 LLM 做不了因果推断，但"做不了"和"数学上不可能"是两回事。前者暗示"再努力一下也许行"，后者告诉你"换路"。

2. 智能体范式的理论正当性。 A-CBO 的成功不是偶然的工程技巧——它是对核障碍定理的直接回应。把 LLM 放在正确的位置（回答事实问题），而不是错误的位置（做全局决策），是定理本身指出的唯一出路。

3. "近失"是一个普遍现象。 不仅仅是因果图，任何需要从高度相似的输入中提取微小差异信号的任务（欺诈检测、医疗诊断、法律推理）都可能面临类似的核障碍。

4. 冻结模型 + 外部循环 > 微调模型。 在这个任务上，不更新权重的方案击败了更新权重的方案。这挑战了"微调是万能的"这一默认假设。

---

局限与未来

论文坦诚地讨论了局限：

A-CBO 依赖 LLM 能正确回答干预查询，但 LLM 对干预的理解本身可能不完美
当前实验限于因果图分类，尚未扩展到从数据中直接发现图结构
贝叶斯循环的计算开销在超大规模候选图集合中可能成为瓶颈

未来的方向包括：将 A-CBO 与传统因果发现算法（如 PC 算法）结合，探索非二元干预查询，以及在真实科学数据上的验证。

---

一句话总结

LLM 做不了因果发现，不是因为笨，而是因为数学上不可能——但如果你让它只回答自己擅长的问题（干预效果），让外部的贝叶斯循环来做决策，它就能在不可能中找到一条出路。

论文链接：https://arxiv.org/abs/2605.27567