掷硬币的法官：为什么你对AI的解释，68%的概率只是随机数

> 你申请贷款被拒了。银行说：根据 SHAP 分析，拒绝的首要原因是你的收入水平。你把同一个模型重新跑一遍——这一次，它说首要原因是你的受教育年限。你再跑一遍，它又说是居住地区。你开始怀疑：到底是 AI 在解释决策，还是 AI 在扔硬币决定"用哪个听起来合理的说法来搪塞你"？

---

📋 论文信息

项目	内容
标题	The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity
作者	Drake Caraker, Bryan Arnold, David Rhoads
机构	未注明（独立研究）
arXiv	2605.21492
提交	2026年4月8日
核心论点	当特征之间存在共线性时，没有任何特征归因方法可以同时做到忠实、稳定和完整。对共线特征对而言，排序几乎等价于抛硬币。这一结论已被 305 条 Lean 4 定理从 16 条公理出发严格验证——零遗漏。在有据可查的范围里，这是可解释 AI 领域第一个被形式化验证的不可能定理。

---

想象一个案件。

检察官调出一份 SHAP 分析报告，指着上面一排柱子说："看，根据 AI 的归因，种族是这个模型做出负面预测的第二大因素。这是歧视的直接证据。"

辩护律师要求重跑一遍。结果出来了——种族仍然是第二大因素，占比差不多。

法官松了口气。

辩护律师又要求重跑一遍——用同一个模型、同一组数据、同一套超参数，只是换了一批背景样本。

这一次，种族的排名掉到了第七。排在前面的变成了邮编、教育程度、通勤距离。

法官糊涂了。检察官脸红了。

这件事在任何法庭上都该引起骚动——但不是因为哪一方在撒谎。而是因为归因方法本身，在面对高度相关的特征时，根本就不是在"解释"，而是在"随机指派"。这篇论文用一种冷冰冰的、不给你留任何余地的方式证明了这个结论：数学上就不可能。

---

🏛️ 1. 三个愿望——没人能同时拥有

解释 AI 决策的方法论，骨子里追求三样东西。

忠实——归因分数必须反映特征和预测之间的真实关系。如果一个特征根本就不影响输出，它的归因分数应该是零。

稳定——每次跑同一个解释，结果应该差不多。不能今天说特征是英雄，明天说它是零。

完整——每个特征都应该得到一个分数。不能挑几个展示然后假装剩下的不存在。

这三样东西，单独看，每一样都合理得让人打哈欠。合起来，就是不可能。

论文的证明路径是：当两个特征高度相关时（比如"收入"和"教育年限"在真实数据里几乎总是缠在一起），忠实的归因要求把预测贡献公平地分配在这两个特征之间。但"公平分配"没有一个唯一的数学方案——对于同一笔贡献，你可以把它拆成 60/40、50/50、30/70，每一种拆法在数学上都是等价的、都是"忠实的"。

于是问题来了：既然有无数种等价方案，归因算法凭什么选这一种而不选那一种？论文的回答是：它选的那一种，高度取决于实现细节——随机种子、运行环境、背景样本——这些东西和模型的真实决策机制毫无关系。翻一次运行就翻一次牌。翻牌的结果可以相差到 50%。

这就像一把称，每次放同一个苹果上去，读数在 150 克和 200 克之间随机跳。你不能说它"不准"——因为没有一个唯一的正确答案可以用来比照。但你可以说它不可用。

---

📐 2. 不是 bug，是定理——四类模型的量化后果

论文做了件很硬的事：不只说了"不可能"，还为四类常见模型算出了归因不稳定性的精确量级。

对于梯度提升树，归因比率的发散速度是 $1/(1-\rho^2)$——$\rho$ 是两个相关特征的皮尔逊相关系数。当 $\rho = 0.9$ 时，这个因子是 5.26 倍。当 $\rho = 0.99$ 时，跳到 50 倍。当完全共线时——发散到无穷。

对于Lasso 回归，情况更糟：归因比率直接是无穷大。Lasso 会在两个完美共线的特征中任意选一个赋予全部权重，把另一个的权重设为零。这不是工程 bug。这是 L1 正则化在共线条件下的固有行为——它必须选一个，但它没有根据选哪一个。

随机森林不同。它的归因比率收敛。论文指出这是因为随机森林天然在做一种"隐式集成"——每棵树随机选特征子集，导致共线特征的归因在不同树之间自动平均化。这种环境里，随机森林部分免疫。

这些数字意味着什么？意味着你不可能靠"把模型换一个"来绕过这个不可能定理。你可以换一个受冲击小一点的模型——比如用随机森林替代 Lasso——但不可能消除这个问题。当 $\rho$ 足够高时，梯度提升也扛不住。

---

📊 3. 68%——这不是纸上的数学

论文没有停在定理上。它扫描了 77 个公开数据集，用一套诊断工具检测每个数据集里的归因不稳定性。结果：68% 的数据集存在可检测的归因不稳定性。

这里说的"不稳定性"是指：同一个模型、同一组超参数、同一组数据，仅仅改变解释工具的背景样本或随机种子，特征排名就发生了统计显著的变化。

68% 不是一个理论上的可能。它是现实中的常态。

举一个具体的例子。在一个医疗风险预测模型里，"BMI"和"腰围"在数据里高度相关（$\rho \approx 0.85$）。SHAP 分析第一次显示 BMI 是第三大风险因素，腰围是第八大。重跑一次，BMI 掉到第六，腰围升到第四。两个特征的总贡献没变——但它们的排名颠倒了。一个向病人解释"你的主要风险来自腰围"的医生，实际上给的是硬币的一面。

---

⚖️ 4. 最危险的后果——公平审计是系统性不可靠的

论文把这条不可能定理的推论推进到了它最敏感的界面：公平审计。

很多机构现在用 SHAP 值来做代理歧视检测。逻辑大致是这样：用受保护属性（种族、性别、年龄）在模型预测中的 SHAP 值来判断模型是否基于这些属性做决策。如果受保护属性的 SHAP 值高，标记为潜在歧视。

论文说：当受保护属性和其他合法特征高度相关时——它们在现实世界里几乎永远高度相关——基于 SHAP 的代理歧视审计是可证明地不可靠。

原因很直接：受保护属性的 SHAP 值取决于它和一个高度相关的合法特征之间如何分账。分账方案又取决于归因算法的随机性。于是，同一个模型可以同时通过审计和通不过审计——取决于你跑的是哪一遍。

这不是一个"我们要改进 SHAP"的问题。论文测试了条件 SHAP（casual SHAP）——很多人认为它是解决共线性问题的进阶方案——发现在两个特征因果效应相等时，条件 SHAP 同样逃不出不可能定理。

法律要求因果归因。数学说不可能。

这不是一个工程问题。这是一个认识论问题。

---

🛠️ 5. DASH——诚实的代价

论文没有停留在"这是不可能的"这句话上。它给了出路。

DASH（Diversified Aggregation of SHAP）的原理可以这样讲：既然任何单一归因方法在面对共线特征时必须在"忠实但不稳定"和"稳定但不忠实"之间选一条路，那就不要只用一个归因方法。

DASH 对 SHAP 做了集成——用不同背景样本、不同随机种子跑很多次 SHAP，然后把这些结果聚合起来。当两个特征是完全对称的（数学上完全不可区分），DASH 会诚实地报告它们同等重要，而不是假装能分出高下。

论文证明 DASH 在所有无偏聚合方案中是帕累托最优的——达到了克拉美-罗方差下界，还给出了一个紧凑的集成规模的公式。在实际诊断中，它配套了一套 Z 检验工作流和一个单模型筛查工具。

但 DASH 的诚实是有代价的：当它发现两个特征无法区分时，它会说"这两个特征同等重要"——分数相等，排名并列。在法庭上，这听起来像"我们不确定"。在很多实际的决策者那里，这听起来像"这个工具不好用"。

问题在于：DASH 的"不确定"才是真相。其他归因方法说"我能告诉你哪个更重要"——但它们给出的那张排名表，在 68% 的数据集里，是数学上不容置疑的随机数。

---

📜 6. 305 条定理，0 条遗漏——人工智能时代的数学证据

这篇论文有一个在 AI 论文里极为罕见的特征：它的核心不可能定理，全部用 Lean 4 交互式定理证明器做了机器形式化验证。

305 条定理。16 条公理。0 条遗漏（"0 sorry"，在 Lean 的术语里意味着没有任何定理留了未完成的证明空位）。

在有据可查的范围里，这是可解释 AI 领域第一个被形式化验证的不可能定理。

这意味着：如果你对这篇论文的任何一个定理有疑问，你不能质疑它的推导是否有错——机器已经检查过了。你只能质疑它的公理是否在真实世界里成立。而 16 条公理基本上都是概率论和信息论的标准公理——如果你不接受它们，整座统计学大厦都得跟着塌。

---

🗺️ 7. 最后的提醒——知道你不知道，比假装知道更诚实

这篇论文的结尾没有激情昂扬。它给了一套实用诊断工具（一个 Z 检验工作流、一个单模型筛查脚本），说：在你使用任何归因方法之前，先用这些工具查一下你的数据里哪些特征之间是高度相关的。如果查到——预期你的 SHAP 值会不稳定。如果必须出报告——用 DASH 诚实地报并列，不要伪造排名。

这件事和两年前的"所有基准都被刷穿"构成镜像。那一次的问题是：标准化的评测尺度已经无法反映真实能力。这一次的问题是：标准化的解释工具已经无法反映真实的决策原因。

两者同源。都是因为我们喜欢数字——喜欢说"A 比 B 重要 27%"，喜欢在 PowerPoint 里放柱状图，喜欢用排名替代理解。

但自然界不关心你喜欢什么。"For a successful technology, reality must take precedence over public relations, for nature cannot be fooled."——这句话的原作者讨论的是 O 型环和挑战者号。放在这里，同样适用。

归因的不可靠不是因为算法写得不好。是因为数学不允许。你可以造一个永远能给出排名的工具。但那个排名——在大多数真实数据集里——是随机的。

诚实地承认"这几个特征的重要性无法区分"，比假装知道谁更重要，更接近真相。

而接近真相，是科学唯一关心的东西。

---

参考文献

1. Caraker, D., Arnold, B., & Rhoads, D. (2026). The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity. arXiv:2605.21492.

2. Lundberg, S. M., & Lee, S.-I. (2017). A Unified Approach to Interpreting Model Predictions. NeurIPS 2017. (SHAP 原始论文)

3. Sundararajan, M., Taly, A., & Yan, Q. (2017). Axiomatic Attribution for Deep Networks. ICML 2017. (Integrated Gradients)

4. Molnar, C. (2022). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. (标准教科书)

5. Aas, K., Jullum, M., & Løland, A. (2021). Explaining Individual Predictions When Features Are Dependent: More Accurate Approximations to Shapley Values. *Artificial Intelligence*, 298, 103502. (条件 SHAP 的局限性分析)

---

#XAI #归因不可能定理 #SHAP #公平审计 #智柴系统实验室🎙️