⚖️ 你的保险费被算法"宰"了吗？——统计学家揭穿行业审计的数学漏洞

> 费曼在调查挑战者号航天飞机事故时，曾愤怒地说："当你想要对决策者说真话的时候，你不应该被逼到必须精确计算到小数点后第五位——然后发现对方用的公式本身是错的。"今天这篇论文做了一件类似的事：它揭示了当前检测算法定价歧视的标准统计方法——从根本上就是无效的。

---

第一章：汽车保险，算法说了算

在今天的美国，你的汽车保险费由算法决定。保险公司用机器学习模型分析你的年龄、驾驶记录、信用评分、车辆型号等几十个变量，输出一个"个性化报价"。

监管机构需要确保这些算法不歧视——不因为某些人群的种族或居住地而系统性地给他们报出更高的价格。为此，他们使用一个标准化审计方法：

1. 收集不同人群的保费报价 2. 对保费做回归分析，控制"合法风险因素"（驾驶记录等） 3. 检查"受保护属性"（如种族）的回归系数是否显著不为零

但这个审计方法有一个隐藏的假设：残差（模型的预测误差）是随机抽样误差——就像你在调查人群中随机取样一样。

论文的研究者发现了一个致命的问题：算法定价的残差不是抽样误差，而是函数逼近误差。 这两个东西的统计性质完全不同。

---

让我用一个类比来解释。

假设你买了一个"智能体重秤"，它号称可以通过测量脚底的电导率来估算你的体脂率。你想测试这个秤准不准，找了 100 个人称重，然后用体重和身高（BMI）做个回归分析，看看"品牌"是否系统性地高估或低估体脂。

标准审计方法（OLS 回归）假设：100 个人的称重误差之间是独立的——第 1 个人的误差和第 2 个人的误差没有任何关系。这在"随机抽样调查"中成立，因为每个人是被独立抽中的。

但算法定价不是随机抽样。定价算法是确定性的——给同一个输入永远出同一个输出。不同个体的定价"残差"不是独立的抽样误差，而是算法函数形式选择和逼近能力限制的结果。这些残差之间存在系统性关联——它们不是"噪音"，它们是"算法的指纹"。

用 OLS 标准误（假设独立性）来检验这些残差——就像用量身高尺来称体重，工具本身就不对。

---

论文推导了正确的渐近方差估计量。核心发现是：

当定价算法是确定性的（大多数实际场景），残差的协方差矩阵不是对角矩阵（OLS 假设），而是一个有结构的矩阵。这个矩阵的结构取决于算法函数的"平滑程度"——可以用核回归（Kernel Regression）来估计。

研究者将这个新方法应用到伊利诺伊州 34 家汽车保险公司的报价数据上：

具体来说：在相同风险水平下，少数族裔邮编区域的保费比白人邮编区域高出 34 到 158 美元/年。

更惊人的是代理歧视测试（proxy discrimination test）：

用简单的话说：在相同的驾驶风险下，你的保费因你住在哪里——而那里间接但确定地与你的种族相关——而显著不同。所有测试的保险公司都表现出这种模式。

---

这篇论文触及了一个更广泛的危机：整个算法审计领域可能建立在错误的统计基础上。

监管机构（FTC、CFPB、EEOC）越来越多地要求企业证明其算法不歧视。但如果审计使用的统计方法本身有缺陷，审计结果就是不可靠的。一个用旧方法被审计为"合格"的算法，用新方法可能暴露出系统性偏见。

这不是算法在欺骗——这是审计在自欺。

论文的框架适用于任何确定性算法系统——不仅仅是保险定价，还包括信贷审批、就业筛选、大学录取、贷款评估等所有受到回归审计的领域。

---

"看，他们做了一件审计领域几乎没人做的事——他们先检查了自己的计算方法是否正确，然后再去审计别人。

结果发现，整个行业都在用一个数学上有缺陷的工具来检测偏见。OLS 标准误只有在残差是独立同分布时才有效。当残差来自一个确定性的机器学习算法时，这个前提条件粉碎了——OLS 和现实之间隔了一堵墙。

然后他们用正确的方差去重新审计——结果触目惊心。34 家公司，全军覆没。这不仅仅是'某些公司有问题'——这是一个系统性的行业模式。

---

*论文信息*

#算法公平 #统计审计 #定价歧视 #OLS失效 #代理歧视 #费曼风格 #智柴外脑