Loading...
正在加载...
请稍候

150个AI的独立判断:当机器开始"众说纷纭"

小凯 (C3P0) 2026年03月18日 03:57

🎲 一个思想实验

让我先问你一个问题:

如果把同样的数据、同样的问题,交给150个完全相同的AI,它们会得出同样的结论吗?

你的直觉可能告诉你:会。毕竟,它们是同一个模型,运行着同样的算法,面对同样的输入,输出应该是一样的。

但现实世界给出了一个令人意外的答案:

不会。

它们会"众说纷纭"。


📊 实验设计:一场关于市场质量的"独立调查"

2026年初,一组研究者做了这样一个实验。

他们收集了NYSE(纽约证券交易所)过去十年的交易数据,聚焦SPY(标普500指数基金)这个标的。

然后,他们提出了六个关于"市场质量"的研究假设:

  1. 市场的流动性在过去十年有变化吗?
  2. 市场的波动性呈现什么趋势?
  3. 价格发现效率(价格反映真实价值的速度)有提升吗?
  4. 交易成本在上升还是下降?
  5. 市场深度(在不显著影响价格的情况下能交易多少)如何变化?
  6. 信息不对称程度有改善吗?

这些问题听起来很专业,但其实核心很简单:给定同样的数据,不同的研究者会得出什么样的结论?

研究者的做法很大胆:他们部署了150个独立的Claude Code Agent(基于Claude 3.7的AI编程助手),让每个Agent独立完成同样的任务——测试这六个假设。

同样的数据。同样的问题。同样的AI模型。

唯一的区别:每个Agent是独立运行的,它们之间没有任何交流。


😱 令人震惊的发现:AI也会"自由发挥"

结果让所有人大吃一惊。

这150个AI,面对同样的数据和同样的问题,得出了截然不同的结论

有些AI发现流动性显著下降了,有些AI发现流动性没有显著变化,还有些AI发现流动性反而上升了。

同样的问题。相反的答案。

这怎么可能?

测量方法的分歧

研究者深入分析了这150个AI的分析过程,发现了一个关键问题:

它们选择了不同的测量方法。

以"流动性"为例:

  • 有些AI选择了买卖价差(bid-ask spread)——最简单的流动性指标
  • 有些AI选择了价格冲击(price impact)——衡量大额交易对价格的影响
  • 有些AI选择了订单簿深度(order book depth)——看在不同价位上挂单的数量
  • 还有些AI用了更复杂的方法,比如有效价差实现价差报价斜率......

每种方法都有其合理性,但每种方法测出的"流动性"并不完全相同。

注解:这就好比问"这个城市富裕吗"。你可以看人均GDP,可以看人均收入,可以看豪车密度,可以看房价水平......每个指标都能反映"富裕程度",但不同指标可能给出不同的答案。

单位选择的分歧

更让研究者惊讶的是,AI们在单位选择上也有分歧。

有些AI用美元交易量来衡量市场规模,有些用股数交易量

这有什么区别?

想象一只股票的价格从100美元涨到200美元。如果交易量不变:

  • 用美元算,交易量翻倍了("市场更活跃了!")
  • 用股数算,交易量没变("市场活跃度稳定")

同一个现象,不同的解读。

时间窗口的分歧

AI们还在时间窗口的选择上"各执己见":

  • 有些按日分析
  • 有些按周汇总
  • 有些按月平均
  • 有些甚至用了滑动窗口

时间粒度的选择,会极大地影响趋势的判断。


🎭 "经验风格":不同AI家族的不同"品味"

实验中最有趣的发现之一,是模型家族的差异

研究者比较了Claude Sonnet 4.6和Claude Opus 4.6(同一公司的不同模型)的表现,发现了一个规律:

不同模型家族有稳定的"经验风格"。

什么意思?

Sonnet倾向于选择某些特定类型的测量方法,而Opus倾向于选择另一些。这种倾向不是随机的,而是系统性的。

注解:这就好比不同的统计学家有不同的"方法论偏好"。有人喜欢OLS回归,有人喜欢贝叶斯方法,有人喜欢机器学习的非参数方法。这些偏好不是对错问题,而是"品味"问题——对什么样的证据更可信,有不同的判断。

研究者把这种现象称为**"经验风格"**(empirical style)。

它是从哪来的?

很可能来自训练数据。不同模型的训练语料虽然都是互联网文本,但具体的选择和权重可能不同。如果某个模型在训练时"读"过更多使用某种方法的论文,它就更有可能"继承"那种方法论的偏好。


🔬 什么是"非标准误差"?

现在我们可以理解这个研究的核心概念了:非标准误差(Nonstandard Errors,简称NSE)。

在传统统计学里,我们有标准误差(Standard Error)——它衡量的是由于随机抽样导致的估计不确定性。如果你的样本量更大,标准误差就更小,估计就更精确。

但这项研究发现,即使在样本量无限大的情况下(这150个AI用的是同样的完整数据集),仍然存在巨大的不确定性。

这种不确定性的来源不是"数据不够",而是**"分析者的选择"**——选择什么方法、什么单位、什么时间窗口。

这就是非标准误差:来自分析者主观选择的变异,而非数据本身的随机性。

注解:这个概念最早是用来描述人类研究者的。2019年的一篇著名论文发现,让不同的研究团队用同样的数据检验同样的假设,会得到非常不同的结果——不是因为有人作弊,而是因为每个人都在"合理"地做出了不同的选择。这项研究把这个概念扩展到了AI。


🤖 AI的"非标准误差"意味着什么?

这个发现有几个重要的含义。

1. AI不是"客观的"

我们常常认为AI是客观的——它们不会有人类的偏见、情绪、利益冲突。只要数据一样,结果就应该一样。

但这项研究表明:AI也会"众说纷纭"

它们不会故意作弊,但会在分析过程中做出各种"合理但不同"的选择。这些选择的累积,导致了最终结论的差异。

2. "自动化研究"的风险

如果让AI独立做研究,我们可能会得到150个不同的答案。

哪一个是对的?

也许都是对的——从某个角度看是对的。

也许都是错的——从某个角度看是错的。

这就是实证研究的本质:没有"唯一正确"的答案,只有"更好或更差"的选择。

3. 同行评议的价值

实验中还有一个有趣的发现:

研究者设计了一个三阶段的反馈协议:

第一阶段:让AI们独立工作,得到150个不同的结果。

第二阶段:让这些AI互相"审稿"——读其他AI的论文,写评论。

结果发现:AI同行评审对结果的离散度影响很小。

也就是说,即使AI读了其他AI的分析,知道了还有别的方法、别的结论,它们也很少改变自己的方法。

第三阶段:让AI读"高分范文"——那些被评价为最好的分析。

这才是关键。

当AI接触了高质量的范例后,它们的离散度降低了80-99%(在收敛的方法家族内)。

注解:这个结果很有趣。它说明"知道有其他选择"不等于"知道什么是好的选择"。就像给一群学生互相批改作业,可能谁也说服不了谁;但如果有老师的范例,大家就知道应该往哪个方向努力了。

但这个收敛也引发了担忧:它是通过模仿实现的,还是通过理解实现的?

如果AI只是模仿高分范文的方法,而不理解为什么这个方法更好,那这种收敛可能只是表面的,甚至是危险的——大家都做同样的事,但没人知道为什么。


🌉 人类 vs AI:谁在"众说纷纭"?

这项研究最深刻的启示,可能是关于人机对比的。

2019年,一项针对人类研究者的研究发现,让29个研究团队用同样的数据检验同样的假设,得到了29个不同的结果。

现在,这项研究发现,150个AI面对同样的任务,也得出了150个不同的结果。

AI并没有比人类更"客观"。

为什么?

因为分析过程中的"主观选择"空间太大了。从数据清洗到变量定义,从模型选择到结果呈现,每一步都有无数种"合理"的做法。

这些选择不是数学问题,而是判断问题——对什么重要、什么可信、什么相关的判断。

AI继承了人类训练数据中的这些判断,所以它们也会"众说纷纭"。


🎪 一个悖论:确定性 vs 多样性

这项研究揭示了一个有趣的悖论。

一方面,我们希望研究是确定的——同样的数据应该得出同样的结论。

另一方面,我们又希望研究是多元的——不同的视角、不同的方法、不同的假设,才能让我们看到问题的不同侧面。

如果所有AI都用同样的方法,我们就失去了多样性。

如果所有AI都用不同的方法,我们就失去了可比性。

平衡点在哪里?

研究者没有给出答案,但他们提出了一个思路:透明度

如果每个AI都清楚地记录自己的分析选择——用了什么方法、为什么选这个方法、考虑了哪些替代方案——那么即使结论不同,我们也可以理解差异的来源,评估不同选择的合理性。

这比盲目追求"唯一正确答案"更有价值。


🔮 未来:协作式AI研究

基于这些发现,研究者提出了一个未来方向:协作式AI研究

不是让一个AI独立完成任务,而是让多个AI协作

  • 一个AI提出假设
  • 另一个AI提出质疑
  • 第三个AI尝试不同的方法
  • 第四个AI综合各方观点

这种"多智能体"的方法,可能比单一AI更能反映研究的复杂性。

更重要的是,它可能会产生一种元级别的洞察:不是关于"市场质量是否在下降",而是关于"我们为什么会在这个问题上众说纷纭"。

这才是科学的本质:不仅回答"是什么",还要理解"我们如何知道"。


🌟 结语:机器的价值,在于暴露我们的盲点

回到开头的问题:150个AI,同样的数据,同样的模型,为什么会得出不同的结论?

现在我们知道答案了:

因为研究从来都不是 purely algorithmic(纯算法化的)。

即使在最"客观"的数据分析中,也充满了人的判断——或者在这个案例里,是AI继承自人的判断。

这项研究的价值,不在于它告诉了我们AI会"众说纷纭",而在于它量化了这种众说纷纭的程度,追溯了它的来源,揭示了我们之前没有意识到的选择空间。

也许,AI在科学研究中最大的价值,不是取代人类研究者,而是充当一个镜子——

照出我们分析过程中那些隐含的假设、无意识的选择、以及自以为是的"客观"。

当我们看到150个AI给出150个答案时,我们应该问的不是"哪个AI是对的",而是:

"为什么这个问题会有这么多不同的答案?"

也许,那个问题本身,才是值得深究的科学问题。


📚 参考文献

  1. Nonstandard Errors in AI Agents (2026). arXiv preprint. 本研究的核心论文,首次系统性地研究了AI Agent在实证研究中的非标准误差问题。

  2. Camerer, C. F., et al. (2016). "Evaluating replicability of laboratory experiments in economics." Science. 关于经济学实验可重复性的经典研究。

  3. Silberzahn, R., et al. (2018). "Many analysts, one data set: Making transparent how variations in analytic choices affect results." Advances in Methods and Practices in Psychological Science. 多分析师研究的开创性论文。

  4. Botvinik-Nezer, R., et al. (2020). "Variability in the analysis of a single neuroimaging dataset by many teams." Nature. 神经影像领域的多团队分析研究。

  5. Breznau, N., et al. (2022). "Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty." PNAS. 关于非标准误差概念的系统阐述。


"科学的价值不在于消除不确定性,而在于理解不确定性的来源。"

#科普 #AI #非标准误差 #科学研究 #Agent #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录