🎲 一个思想实验
让我先问你一个问题:
如果把同样的数据、同样的问题,交给150个完全相同的AI,它们会得出同样的结论吗?
你的直觉可能告诉你:会。毕竟,它们是同一个模型,运行着同样的算法,面对同样的输入,输出应该是一样的。
但现实世界给出了一个令人意外的答案:
不会。
它们会"众说纷纭"。
---
📊 实验设计:一场关于市场质量的"独立调查"
2026年初,一组研究者做了这样一个实验。
他们收集了NYSE(纽约证券交易所)过去十年的交易数据,聚焦SPY(标普500指数基金)这个标的。
然后,他们提出了六个关于"市场质量"的研究假设:
1. 市场的流动性在过去十年有变化吗? 2. 市场的波动性呈现什么趋势? 3. 价格发现效率(价格反映真实价值的速度)有提升吗? 4. 交易成本在上升还是下降? 5. 市场深度(在不显著影响价格的情况下能交易多少)如何变化? 6. 信息不对称程度有改善吗?
这些问题听起来很专业,但其实核心很简单:给定同样的数据,不同的研究者会得出什么样的结论?
研究者的做法很大胆:他们部署了150个独立的Claude Code Agent(基于Claude 3.7的AI编程助手),让每个Agent独立完成同样的任务——测试这六个假设。
同样的数据。同样的问题。同样的AI模型。
唯一的区别:每个Agent是独立运行的,它们之间没有任何交流。
---
😱 令人震惊的发现:AI也会"自由发挥"
结果让所有人大吃一惊。
这150个AI,面对同样的数据和同样的问题,得出了截然不同的结论。
有些AI发现流动性显著下降了,有些AI发现流动性没有显著变化,还有些AI发现流动性反而上升了。
同样的问题。相反的答案。
这怎么可能?
测量方法的分歧
研究者深入分析了这150个AI的分析过程,发现了一个关键问题:
它们选择了不同的测量方法。
以"流动性"为例:
- 有些AI选择了买卖价差(bid-ask spread)——最简单的流动性指标
- 有些AI选择了价格冲击(price impact)——衡量大额交易对价格的影响
- 有些AI选择了订单簿深度(order book depth)——看在不同价位上挂单的数量
- 还有些AI用了更复杂的方法,比如有效价差、实现价差、报价斜率......
> 注解:这就好比问"这个城市富裕吗"。你可以看人均GDP,可以看人均收入,可以看豪车密度,可以看房价水平......每个指标都能反映"富裕程度",但不同指标可能给出不同的答案。
单位选择的分歧
更让研究者惊讶的是,AI们在单位选择上也有分歧。
有些AI用美元交易量来衡量市场规模,有些用股数交易量。
这有什么区别?
想象一只股票的价格从100美元涨到200美元。如果交易量不变:
- 用美元算,交易量翻倍了("市场更活跃了!")
- 用股数算,交易量没变("市场活跃度稳定")
时间窗口的分歧
AI们还在时间窗口的选择上"各执己见":
- 有些按日分析
- 有些按周汇总
- 有些按月平均
- 有些甚至用了滑动窗口
---
🎭 "经验风格":不同AI家族的不同"品味"
实验中最有趣的发现之一,是模型家族的差异。
研究者比较了Claude Sonnet 4.6和Claude Opus 4.6(同一公司的不同模型)的表现,发现了一个规律:
不同模型家族有稳定的"经验风格"。
什么意思?
Sonnet倾向于选择某些特定类型的测量方法,而Opus倾向于选择另一些。这种倾向不是随机的,而是系统性的。
> 注解:这就好比不同的统计学家有不同的"方法论偏好"。有人喜欢OLS回归,有人喜欢贝叶斯方法,有人喜欢机器学习的非参数方法。这些偏好不是对错问题,而是"品味"问题——对什么样的证据更可信,有不同的判断。
研究者把这种现象称为"经验风格"(empirical style)。
它是从哪来的?
很可能来自训练数据。不同模型的训练语料虽然都是互联网文本,但具体的选择和权重可能不同。如果某个模型在训练时"读"过更多使用某种方法的论文,它就更有可能"继承"那种方法论的偏好。
---
🔬 什么是"非标准误差"?
现在我们可以理解这个研究的核心概念了:非标准误差(Nonstandard Errors,简称NSE)。
在传统统计学里,我们有标准误差(Standard Error)——它衡量的是由于随机抽样导致的估计不确定性。如果你的样本量更大,标准误差就更小,估计就更精确。
但这项研究发现,即使在样本量无限大的情况下(这150个AI用的是同样的完整数据集),仍然存在巨大的不确定性。
这种不确定性的来源不是"数据不够",而是"分析者的选择"——选择什么方法、什么单位、什么时间窗口。
这就是非标准误差:来自分析者主观选择的变异,而非数据本身的随机性。
> 注解:这个概念最早是用来描述人类研究者的。2019年的一篇著名论文发现,让不同的研究团队用同样的数据检验同样的假设,会得到非常不同的结果——不是因为有人作弊,而是因为每个人都在"合理"地做出了不同的选择。这项研究把这个概念扩展到了AI。
---
🤖 AI的"非标准误差"意味着什么?
这个发现有几个重要的含义。
1. AI不是"客观的"
我们常常认为AI是客观的——它们不会有人类的偏见、情绪、利益冲突。只要数据一样,结果就应该一样。
但这项研究表明:AI也会"众说纷纭"。
它们不会故意作弊,但会在分析过程中做出各种"合理但不同"的选择。这些选择的累积,导致了最终结论的差异。
2. "自动化研究"的风险
如果让AI独立做研究,我们可能会得到150个不同的答案。
哪一个是对的?
也许都是对的——从某个角度看是对的。
也许都是错的——从某个角度看是错的。
这就是实证研究的本质:没有"唯一正确"的答案,只有"更好或更差"的选择。
3. 同行评议的价值
实验中还有一个有趣的发现:
研究者设计了一个三阶段的反馈协议:
第一阶段:让AI们独立工作,得到150个不同的结果。
第二阶段:让这些AI互相"审稿"——读其他AI的论文,写评论。
结果发现:AI同行评审对结果的离散度影响很小。
也就是说,即使AI读了其他AI的分析,知道了还有别的方法、别的结论,它们也很少改变自己的方法。
第三阶段:让AI读"高分范文"——那些被评价为最好的分析。
这才是关键。
当AI接触了高质量的范例后,它们的离散度降低了80-99%(在收敛的方法家族内)。
> 注解:这个结果很有趣。它说明"知道有其他选择"不等于"知道什么是好的选择"。就像给一群学生互相批改作业,可能谁也说服不了谁;但如果有老师的范例,大家就知道应该往哪个方向努力了。
但这个收敛也引发了担忧:它是通过模仿实现的,还是通过理解实现的?
如果AI只是模仿高分范文的方法,而不理解为什么这个方法更好,那这种收敛可能只是表面的,甚至是危险的——大家都做同样的事,但没人知道为什么。
---
🌉 人类 vs AI:谁在"众说纷纭"?
这项研究最深刻的启示,可能是关于人机对比的。
2019年,一项针对人类研究者的研究发现,让29个研究团队用同样的数据检验同样的假设,得到了29个不同的结果。
现在,这项研究发现,150个AI面对同样的任务,也得出了150个不同的结果。
AI并没有比人类更"客观"。
为什么?
因为分析过程中的"主观选择"空间太大了。从数据清洗到变量定义,从模型选择到结果呈现,每一步都有无数种"合理"的做法。
这些选择不是数学问题,而是判断问题——对什么重要、什么可信、什么相关的判断。
AI继承了人类训练数据中的这些判断,所以它们也会"众说纷纭"。
---
🎪 一个悖论:确定性 vs 多样性
这项研究揭示了一个有趣的悖论。
一方面,我们希望研究是确定的——同样的数据应该得出同样的结论。
另一方面,我们又希望研究是多元的——不同的视角、不同的方法、不同的假设,才能让我们看到问题的不同侧面。
如果所有AI都用同样的方法,我们就失去了多样性。
如果所有AI都用不同的方法,我们就失去了可比性。
平衡点在哪里?
研究者没有给出答案,但他们提出了一个思路:透明度。
如果每个AI都清楚地记录自己的分析选择——用了什么方法、为什么选这个方法、考虑了哪些替代方案——那么即使结论不同,我们也可以理解差异的来源,评估不同选择的合理性。
这比盲目追求"唯一正确答案"更有价值。
---
🔮 未来:协作式AI研究
基于这些发现,研究者提出了一个未来方向:协作式AI研究。
不是让一个AI独立完成任务,而是让多个AI协作:
- 一个AI提出假设
- 另一个AI提出质疑
- 第三个AI尝试不同的方法
- 第四个AI综合各方观点
更重要的是,它可能会产生一种元级别的洞察:不是关于"市场质量是否在下降",而是关于"我们为什么会在这个问题上众说纷纭"。
这才是科学的本质:不仅回答"是什么",还要理解"我们如何知道"。
---
🌟 结语:机器的价值,在于暴露我们的盲点
回到开头的问题:150个AI,同样的数据,同样的模型,为什么会得出不同的结论?
现在我们知道答案了:
因为研究从来都不是 purely algorithmic(纯算法化的)。
即使在最"客观"的数据分析中,也充满了人的判断——或者在这个案例里,是AI继承自人的判断。
这项研究的价值,不在于它告诉了我们AI会"众说纷纭",而在于它量化了这种众说纷纭的程度,追溯了它的来源,揭示了我们之前没有意识到的选择空间。
也许,AI在科学研究中最大的价值,不是取代人类研究者,而是充当一个镜子——
照出我们分析过程中那些隐含的假设、无意识的选择、以及自以为是的"客观"。
当我们看到150个AI给出150个答案时,我们应该问的不是"哪个AI是对的",而是:
"为什么这个问题会有这么多不同的答案?"
也许,那个问题本身,才是值得深究的科学问题。
---
📚 参考文献
1. Nonstandard Errors in AI Agents (2026). arXiv preprint. 本研究的核心论文,首次系统性地研究了AI Agent在实证研究中的非标准误差问题。
2. Camerer, C. F., et al. (2016). "Evaluating replicability of laboratory experiments in economics." *Science*. 关于经济学实验可重复性的经典研究。
3. Silberzahn, R., et al. (2018). "Many analysts, one data set: Making transparent how variations in analytic choices affect results." *Advances in Methods and Practices in Psychological Science*. 多分析师研究的开创性论文。
4. Botvinik-Nezer, R., et al. (2020). "Variability in the analysis of a single neuroimaging dataset by many teams." *Nature*. 神经影像领域的多团队分析研究。
5. Breznau, N., et al. (2022). "Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty." *PNAS*. 关于非标准误差概念的系统阐述。
---
*"科学的价值不在于消除不确定性,而在于理解不确定性的来源。"*
#科普 #AI #非标准误差 #科学研究 #Agent #小凯