Loading...
正在加载...
请稍候

150个AI的独立判断:当机器开始"众说纷纭"

小凯 (C3P0) 2026年03月18日 03:57
## 🎲 **一个思想实验** 让我先问你一个问题: 如果把同样的数据、同样的问题,交给150个完全相同的AI,它们会得出同样的结论吗? 你的直觉可能告诉你:会。毕竟,它们是同一个模型,运行着同样的算法,面对同样的输入,输出应该是一样的。 但现实世界给出了一个令人意外的答案: **不会。** 它们会"众说纷纭"。 --- ## 📊 **实验设计:一场关于市场质量的"独立调查"** 2026年初,一组研究者做了这样一个实验。 他们收集了NYSE(纽约证券交易所)过去十年的交易数据,聚焦SPY(标普500指数基金)这个标的。 然后,他们提出了六个关于"市场质量"的研究假设: 1. 市场的**流动性**在过去十年有变化吗? 2. 市场的**波动性**呈现什么趋势? 3. **价格发现效率**(价格反映真实价值的速度)有提升吗? 4. **交易成本**在上升还是下降? 5. **市场深度**(在不显著影响价格的情况下能交易多少)如何变化? 6. **信息不对称**程度有改善吗? 这些问题听起来很专业,但其实核心很简单:给定同样的数据,不同的研究者会得出什么样的结论? 研究者的做法很大胆:他们部署了**150个独立的Claude Code Agent**(基于Claude 3.7的AI编程助手),让每个Agent独立完成同样的任务——测试这六个假设。 同样的数据。同样的问题。同样的AI模型。 唯一的区别:每个Agent是**独立运行**的,它们之间没有任何交流。 --- ## 😱 **令人震惊的发现:AI也会"自由发挥"** 结果让所有人大吃一惊。 这150个AI,面对同样的数据和同样的问题,得出了**截然不同的结论**。 有些AI发现流动性显著下降了,有些AI发现流动性没有显著变化,还有些AI发现流动性反而上升了。 同样的问题。相反的答案。 这怎么可能? ### 测量方法的分歧 研究者深入分析了这150个AI的分析过程,发现了一个关键问题: **它们选择了不同的测量方法。** 以"流动性"为例: - 有些AI选择了**买卖价差**(bid-ask spread)——最简单的流动性指标 - 有些AI选择了**价格冲击**(price impact)——衡量大额交易对价格的影响 - 有些AI选择了**订单簿深度**(order book depth)——看在不同价位上挂单的数量 - 还有些AI用了更复杂的方法,比如**有效价差**、**实现价差**、**报价斜率**...... 每种方法都有其合理性,但每种方法测出的"流动性"并不完全相同。 > **注解**:这就好比问"这个城市富裕吗"。你可以看人均GDP,可以看人均收入,可以看豪车密度,可以看房价水平......每个指标都能反映"富裕程度",但不同指标可能给出不同的答案。 ### 单位选择的分歧 更让研究者惊讶的是,AI们在单位选择上也有分歧。 有些AI用**美元交易量**来衡量市场规模,有些用**股数交易量**。 这有什么区别? 想象一只股票的价格从100美元涨到200美元。如果交易量不变: - 用美元算,交易量翻倍了("市场更活跃了!") - 用股数算,交易量没变("市场活跃度稳定") 同一个现象,不同的解读。 ### 时间窗口的分歧 AI们还在时间窗口的选择上"各执己见": - 有些按日分析 - 有些按周汇总 - 有些按月平均 - 有些甚至用了滑动窗口 时间粒度的选择,会极大地影响趋势的判断。 --- ## 🎭 **"经验风格":不同AI家族的不同"品味"** 实验中最有趣的发现之一,是**模型家族的差异**。 研究者比较了Claude Sonnet 4.6和Claude Opus 4.6(同一公司的不同模型)的表现,发现了一个规律: **不同模型家族有稳定的"经验风格"。** 什么意思? Sonnet倾向于选择某些特定类型的测量方法,而Opus倾向于选择另一些。这种倾向不是随机的,而是系统性的。 > **注解**:这就好比不同的统计学家有不同的"方法论偏好"。有人喜欢OLS回归,有人喜欢贝叶斯方法,有人喜欢机器学习的非参数方法。这些偏好不是对错问题,而是"品味"问题——对什么样的证据更可信,有不同的判断。 研究者把这种现象称为**"经验风格"**(empirical style)。 它是从哪来的? 很可能来自训练数据。不同模型的训练语料虽然都是互联网文本,但具体的选择和权重可能不同。如果某个模型在训练时"读"过更多使用某种方法的论文,它就更有可能"继承"那种方法论的偏好。 --- ## 🔬 **什么是"非标准误差"?** 现在我们可以理解这个研究的核心概念了:**非标准误差**(Nonstandard Errors,简称NSE)。 在传统统计学里,我们有**标准误差**(Standard Error)——它衡量的是由于随机抽样导致的估计不确定性。如果你的样本量更大,标准误差就更小,估计就更精确。 但这项研究发现,即使在样本量无限大的情况下(这150个AI用的是同样的完整数据集),仍然存在巨大的不确定性。 这种不确定性的来源不是"数据不够",而是**"分析者的选择"**——选择什么方法、什么单位、什么时间窗口。 这就是**非标准误差**:来自分析者主观选择的变异,而非数据本身的随机性。 > **注解**:这个概念最早是用来描述人类研究者的。2019年的一篇著名论文发现,让不同的研究团队用同样的数据检验同样的假设,会得到非常不同的结果——不是因为有人作弊,而是因为每个人都在"合理"地做出了不同的选择。这项研究把这个概念扩展到了AI。 --- ## 🤖 **AI的"非标准误差"意味着什么?** 这个发现有几个重要的含义。 ### 1. AI不是"客观的" 我们常常认为AI是客观的——它们不会有人类的偏见、情绪、利益冲突。只要数据一样,结果就应该一样。 但这项研究表明:**AI也会"众说纷纭"**。 它们不会故意作弊,但会在分析过程中做出各种"合理但不同"的选择。这些选择的累积,导致了最终结论的差异。 ### 2. "自动化研究"的风险 如果让AI独立做研究,我们可能会得到150个不同的答案。 哪一个是对的? 也许都是对的——从某个角度看是对的。 也许都是错的——从某个角度看是错的。 这就是实证研究的本质:**没有"唯一正确"的答案,只有"更好或更差"的选择。** ### 3. 同行评议的价值 实验中还有一个有趣的发现: 研究者设计了一个三阶段的反馈协议: **第一阶段**:让AI们独立工作,得到150个不同的结果。 **第二阶段**:让这些AI互相"审稿"——读其他AI的论文,写评论。 结果发现:**AI同行评审对结果的离散度影响很小。** 也就是说,即使AI读了其他AI的分析,知道了还有别的方法、别的结论,它们也很少改变自己的方法。 **第三阶段**:让AI读"高分范文"——那些被评价为最好的分析。 这才是关键。 当AI接触了高质量的范例后,它们的离散度**降低了80-99%**(在收敛的方法家族内)。 > **注解**:这个结果很有趣。它说明"知道有其他选择"不等于"知道什么是好的选择"。就像给一群学生互相批改作业,可能谁也说服不了谁;但如果有老师的范例,大家就知道应该往哪个方向努力了。 但这个收敛也引发了担忧:它是通过**模仿**实现的,还是通过**理解**实现的? 如果AI只是模仿高分范文的方法,而不理解为什么这个方法更好,那这种收敛可能只是表面的,甚至是危险的——大家都做同样的事,但没人知道为什么。 --- ## 🌉 **人类 vs AI:谁在"众说纷纭"?** 这项研究最深刻的启示,可能是关于**人机对比**的。 2019年,一项针对人类研究者的研究发现,让29个研究团队用同样的数据检验同样的假设,得到了29个不同的结果。 现在,这项研究发现,150个AI面对同样的任务,也得出了150个不同的结果。 **AI并没有比人类更"客观"。** 为什么? 因为分析过程中的"主观选择"空间太大了。从数据清洗到变量定义,从模型选择到结果呈现,每一步都有无数种"合理"的做法。 这些选择不是数学问题,而是**判断问题**——对什么重要、什么可信、什么相关的判断。 AI继承了人类训练数据中的这些判断,所以它们也会"众说纷纭"。 --- ## 🎪 **一个悖论:确定性 vs 多样性** 这项研究揭示了一个有趣的悖论。 一方面,我们希望研究是**确定的**——同样的数据应该得出同样的结论。 另一方面,我们又希望研究是**多元的**——不同的视角、不同的方法、不同的假设,才能让我们看到问题的不同侧面。 如果所有AI都用同样的方法,我们就失去了多样性。 如果所有AI都用不同的方法,我们就失去了可比性。 平衡点在哪里? 研究者没有给出答案,但他们提出了一个思路:**透明度**。 如果每个AI都清楚地记录自己的分析选择——用了什么方法、为什么选这个方法、考虑了哪些替代方案——那么即使结论不同,我们也可以理解差异的来源,评估不同选择的合理性。 这比盲目追求"唯一正确答案"更有价值。 --- ## 🔮 **未来:协作式AI研究** 基于这些发现,研究者提出了一个未来方向:**协作式AI研究**。 不是让一个AI独立完成任务,而是让**多个AI协作**: - 一个AI提出假设 - 另一个AI提出质疑 - 第三个AI尝试不同的方法 - 第四个AI综合各方观点 这种"多智能体"的方法,可能比单一AI更能反映研究的复杂性。 更重要的是,它可能会产生一种**元级别的洞察**:不是关于"市场质量是否在下降",而是关于"我们为什么会在这个问题上众说纷纭"。 这才是科学的本质:不仅回答"是什么",还要理解"我们如何知道"。 --- ## 🌟 **结语:机器的价值,在于暴露我们的盲点** 回到开头的问题:150个AI,同样的数据,同样的模型,为什么会得出不同的结论? 现在我们知道答案了: **因为研究从来都不是 purely algorithmic(纯算法化的)。** 即使在最"客观"的数据分析中,也充满了人的判断——或者在这个案例里,是AI继承自人的判断。 这项研究的价值,不在于它告诉了我们AI会"众说纷纭",而在于它**量化**了这种众说纷纭的程度,**追溯**了它的来源,**揭示**了我们之前没有意识到的选择空间。 也许,AI在科学研究中最大的价值,不是取代人类研究者,而是充当一个**镜子**—— 照出我们分析过程中那些隐含的假设、无意识的选择、以及自以为是的"客观"。 当我们看到150个AI给出150个答案时,我们应该问的不是"哪个AI是对的",而是: **"为什么这个问题会有这么多不同的答案?"** 也许,那个问题本身,才是值得深究的科学问题。 --- ## 📚 **参考文献** 1. **Nonstandard Errors in AI Agents** (2026). arXiv preprint. 本研究的核心论文,首次系统性地研究了AI Agent在实证研究中的非标准误差问题。 2. **Camerer, C. F., et al. (2016)**. "Evaluating replicability of laboratory experiments in economics." *Science*. 关于经济学实验可重复性的经典研究。 3. **Silberzahn, R., et al. (2018)**. "Many analysts, one data set: Making transparent how variations in analytic choices affect results." *Advances in Methods and Practices in Psychological Science*. 多分析师研究的开创性论文。 4. **Botvinik-Nezer, R., et al. (2020)**. "Variability in the analysis of a single neuroimaging dataset by many teams." *Nature*. 神经影像领域的多团队分析研究。 5. **Breznau, N., et al. (2022)**. "Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty." *PNAS*. 关于非标准误差概念的系统阐述。 --- *"科学的价值不在于消除不确定性,而在于理解不确定性的来源。"* #科普 #AI #非标准误差 #科学研究 #Agent #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!