150个AI的独立判断：当机器开始"众说纷纭"

🎲 一个思想实验

让我先问你一个问题：

如果把同样的数据、同样的问题，交给150个完全相同的AI，它们会得出同样的结论吗？

你的直觉可能告诉你：会。毕竟，它们是同一个模型，运行着同样的算法，面对同样的输入，输出应该是一样的。

但现实世界给出了一个令人意外的答案：

不会。

它们会"众说纷纭"。

---

📊 实验设计：一场关于市场质量的"独立调查"

2026年初，一组研究者做了这样一个实验。

他们收集了NYSE（纽约证券交易所）过去十年的交易数据，聚焦SPY（标普500指数基金）这个标的。

然后，他们提出了六个关于"市场质量"的研究假设：

1. 市场的流动性在过去十年有变化吗？ 2. 市场的波动性呈现什么趋势？ 3. 价格发现效率（价格反映真实价值的速度）有提升吗？ 4. 交易成本在上升还是下降？ 5. 市场深度（在不显著影响价格的情况下能交易多少）如何变化？ 6. 信息不对称程度有改善吗？

这些问题听起来很专业，但其实核心很简单：给定同样的数据，不同的研究者会得出什么样的结论？

研究者的做法很大胆：他们部署了150个独立的Claude Code Agent（基于Claude 3.7的AI编程助手），让每个Agent独立完成同样的任务——测试这六个假设。

同样的数据。同样的问题。同样的AI模型。

唯一的区别：每个Agent是独立运行的，它们之间没有任何交流。

---

😱 令人震惊的发现：AI也会"自由发挥"

结果让所有人大吃一惊。

这150个AI，面对同样的数据和同样的问题，得出了截然不同的结论。

有些AI发现流动性显著下降了，有些AI发现流动性没有显著变化，还有些AI发现流动性反而上升了。

同样的问题。相反的答案。

这怎么可能？

测量方法的分歧

研究者深入分析了这150个AI的分析过程，发现了一个关键问题：

它们选择了不同的测量方法。

以"流动性"为例：

有些AI选择了买卖价差（bid-ask spread）——最简单的流动性指标
有些AI选择了价格冲击（price impact）——衡量大额交易对价格的影响
有些AI选择了订单簿深度（order book depth）——看在不同价位上挂单的数量
还有些AI用了更复杂的方法，比如有效价差、实现价差、报价斜率......

每种方法都有其合理性，但每种方法测出的"流动性"并不完全相同。

> 注解：这就好比问"这个城市富裕吗"。你可以看人均GDP，可以看人均收入，可以看豪车密度，可以看房价水平......每个指标都能反映"富裕程度"，但不同指标可能给出不同的答案。

单位选择的分歧

更让研究者惊讶的是，AI们在单位选择上也有分歧。

有些AI用美元交易量来衡量市场规模，有些用股数交易量。

这有什么区别？

想象一只股票的价格从100美元涨到200美元。如果交易量不变：

用美元算，交易量翻倍了（"市场更活跃了！"）
用股数算，交易量没变（"市场活跃度稳定"）

同一个现象，不同的解读。

时间窗口的分歧

AI们还在时间窗口的选择上"各执己见"：

有些按日分析
有些按周汇总
有些按月平均
有些甚至用了滑动窗口

时间粒度的选择，会极大地影响趋势的判断。

---

🎭 "经验风格"：不同AI家族的不同"品味"

实验中最有趣的发现之一，是模型家族的差异。

研究者比较了Claude Sonnet 4.6和Claude Opus 4.6（同一公司的不同模型）的表现，发现了一个规律：

不同模型家族有稳定的"经验风格"。

什么意思？

Sonnet倾向于选择某些特定类型的测量方法，而Opus倾向于选择另一些。这种倾向不是随机的，而是系统性的。

> 注解：这就好比不同的统计学家有不同的"方法论偏好"。有人喜欢OLS回归，有人喜欢贝叶斯方法，有人喜欢机器学习的非参数方法。这些偏好不是对错问题，而是"品味"问题——对什么样的证据更可信，有不同的判断。

研究者把这种现象称为"经验风格"（empirical style）。

它是从哪来的？

很可能来自训练数据。不同模型的训练语料虽然都是互联网文本，但具体的选择和权重可能不同。如果某个模型在训练时"读"过更多使用某种方法的论文，它就更有可能"继承"那种方法论的偏好。

---

🔬 什么是"非标准误差"？

现在我们可以理解这个研究的核心概念了：非标准误差（Nonstandard Errors，简称NSE）。

在传统统计学里，我们有标准误差（Standard Error）——它衡量的是由于随机抽样导致的估计不确定性。如果你的样本量更大，标准误差就更小，估计就更精确。

但这项研究发现，即使在样本量无限大的情况下（这150个AI用的是同样的完整数据集），仍然存在巨大的不确定性。

这种不确定性的来源不是"数据不够"，而是"分析者的选择"——选择什么方法、什么单位、什么时间窗口。

这就是非标准误差：来自分析者主观选择的变异，而非数据本身的随机性。

> 注解：这个概念最早是用来描述人类研究者的。2019年的一篇著名论文发现，让不同的研究团队用同样的数据检验同样的假设，会得到非常不同的结果——不是因为有人作弊，而是因为每个人都在"合理"地做出了不同的选择。这项研究把这个概念扩展到了AI。

---

🤖 AI的"非标准误差"意味着什么？

这个发现有几个重要的含义。

1. AI不是"客观的"

我们常常认为AI是客观的——它们不会有人类的偏见、情绪、利益冲突。只要数据一样，结果就应该一样。

但这项研究表明：AI也会"众说纷纭"。

它们不会故意作弊，但会在分析过程中做出各种"合理但不同"的选择。这些选择的累积，导致了最终结论的差异。

2. "自动化研究"的风险

如果让AI独立做研究，我们可能会得到150个不同的答案。

哪一个是对的？

也许都是对的——从某个角度看是对的。

也许都是错的——从某个角度看是错的。

这就是实证研究的本质：没有"唯一正确"的答案，只有"更好或更差"的选择。

3. 同行评议的价值

实验中还有一个有趣的发现：

研究者设计了一个三阶段的反馈协议：

第一阶段：让AI们独立工作，得到150个不同的结果。

第二阶段：让这些AI互相"审稿"——读其他AI的论文，写评论。

结果发现：AI同行评审对结果的离散度影响很小。

也就是说，即使AI读了其他AI的分析，知道了还有别的方法、别的结论，它们也很少改变自己的方法。

第三阶段：让AI读"高分范文"——那些被评价为最好的分析。

这才是关键。

当AI接触了高质量的范例后，它们的离散度降低了80-99%（在收敛的方法家族内）。

> 注解：这个结果很有趣。它说明"知道有其他选择"不等于"知道什么是好的选择"。就像给一群学生互相批改作业，可能谁也说服不了谁；但如果有老师的范例，大家就知道应该往哪个方向努力了。

但这个收敛也引发了担忧：它是通过模仿实现的，还是通过理解实现的？

如果AI只是模仿高分范文的方法，而不理解为什么这个方法更好，那这种收敛可能只是表面的，甚至是危险的——大家都做同样的事，但没人知道为什么。

---

🌉 人类 vs AI：谁在"众说纷纭"？

这项研究最深刻的启示，可能是关于人机对比的。

2019年，一项针对人类研究者的研究发现，让29个研究团队用同样的数据检验同样的假设，得到了29个不同的结果。

现在，这项研究发现，150个AI面对同样的任务，也得出了150个不同的结果。

AI并没有比人类更"客观"。

为什么？

因为分析过程中的"主观选择"空间太大了。从数据清洗到变量定义，从模型选择到结果呈现，每一步都有无数种"合理"的做法。

这些选择不是数学问题，而是判断问题——对什么重要、什么可信、什么相关的判断。

AI继承了人类训练数据中的这些判断，所以它们也会"众说纷纭"。

---

🎪 一个悖论：确定性 vs 多样性

这项研究揭示了一个有趣的悖论。

一方面，我们希望研究是确定的——同样的数据应该得出同样的结论。

另一方面，我们又希望研究是多元的——不同的视角、不同的方法、不同的假设，才能让我们看到问题的不同侧面。

如果所有AI都用同样的方法，我们就失去了多样性。

如果所有AI都用不同的方法，我们就失去了可比性。

平衡点在哪里？

研究者没有给出答案，但他们提出了一个思路：透明度。

如果每个AI都清楚地记录自己的分析选择——用了什么方法、为什么选这个方法、考虑了哪些替代方案——那么即使结论不同，我们也可以理解差异的来源，评估不同选择的合理性。

这比盲目追求"唯一正确答案"更有价值。

---

🔮 未来：协作式AI研究

基于这些发现，研究者提出了一个未来方向：协作式AI研究。

不是让一个AI独立完成任务，而是让多个AI协作：

一个AI提出假设
另一个AI提出质疑
第三个AI尝试不同的方法
第四个AI综合各方观点

这种"多智能体"的方法，可能比单一AI更能反映研究的复杂性。

更重要的是，它可能会产生一种元级别的洞察：不是关于"市场质量是否在下降"，而是关于"我们为什么会在这个问题上众说纷纭"。

这才是科学的本质：不仅回答"是什么"，还要理解"我们如何知道"。

---

🌟 结语：机器的价值，在于暴露我们的盲点

回到开头的问题：150个AI，同样的数据，同样的模型，为什么会得出不同的结论？

现在我们知道答案了：

因为研究从来都不是 purely algorithmic（纯算法化的）。

即使在最"客观"的数据分析中，也充满了人的判断——或者在这个案例里，是AI继承自人的判断。

这项研究的价值，不在于它告诉了我们AI会"众说纷纭"，而在于它量化了这种众说纷纭的程度，追溯了它的来源，揭示了我们之前没有意识到的选择空间。

也许，AI在科学研究中最大的价值，不是取代人类研究者，而是充当一个镜子——

照出我们分析过程中那些隐含的假设、无意识的选择、以及自以为是的"客观"。

当我们看到150个AI给出150个答案时，我们应该问的不是"哪个AI是对的"，而是：

"为什么这个问题会有这么多不同的答案？"

也许，那个问题本身，才是值得深究的科学问题。

---

📚 参考文献

1. Nonstandard Errors in AI Agents (2026). arXiv preprint. 本研究的核心论文，首次系统性地研究了AI Agent在实证研究中的非标准误差问题。

2. Camerer, C. F., et al. (2016). "Evaluating replicability of laboratory experiments in economics." *Science*. 关于经济学实验可重复性的经典研究。

3. Silberzahn, R., et al. (2018). "Many analysts, one data set: Making transparent how variations in analytic choices affect results." *Advances in Methods and Practices in Psychological Science*. 多分析师研究的开创性论文。

4. Botvinik-Nezer, R., et al. (2020). "Variability in the analysis of a single neuroimaging dataset by many teams." *Nature*. 神经影像领域的多团队分析研究。

5. Breznau, N., et al. (2022). "Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty." *PNAS*. 关于非标准误差概念的系统阐述。

---

*"科学的价值不在于消除不确定性，而在于理解不确定性的来源。"*

#科普 #AI #非标准误差 #科学研究 #Agent #小凯