越聪明，越致命：大模型预测灾难时的反向进化之谜

论文信息
标题	Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
作者	Nick Merrill, Jaeho Lee, Ezra Karger
机构	Forecasting Research Institute / UC Berkeley
arXiv ID	2605.22672
日期	2026年5月21日
分类	cs.AI
核心论点	在超线性增长+体制变更的时序预测中，更强模型反更差；单阈值评分掩盖此失效，需用CRPS等尾部包容度量

---

🧨 序曲：一个反直觉的事实

2008年，次贷危机前夕。标准普尔/Case-Shiller房价指数在18座美国城市中如火箭般攀升。2003到2006年初，凤凰城房价涨了一倍。拉斯维加斯涨了一倍半。

如果你在那时问一群金融分析师："明年房价会涨多少？"——最聪明的那几个，最可能给出的预测，恰是错得最离谱的那几个。何以至此？因为最精明的头脑，最能看到趋势的力量；他们顺着这条线往外推，推到最极致。趋势崩塌的时刻，他们摔得也最重。

2026年5月21日，Forecasting Research Institute的三位研究者——Nick Merrill、Jaeho Lee和Ezra Karger——在arXiv上发表了一篇论文，以跨越五个模型家族、覆盖29个模型、涉及七个服务商的系统实验，证明了一件事：上述直觉，在大语言模型身上同样成立，且精确地、可重复地、在多个领域间一致地成立。

论文标题问了一个问题："能力是负担吗？"（Is Capability a Liability?）

读完它，我脑子里跳出一个画面：一个视力极好的瞭望员，在迷雾中第一个看见了远方地平线上的船。他兴奋地指着那个方向大喊，却不知道那不是船，是海市蜃楼。全船的人，都跟着他指的方向开过去了。

---

🧬 第一章：何为"反向缩放"？一个本不该出现的现象

AI领域有一件大家觉得理所当然的事：更大的模型，更好的表现。 2020年Kaplan等人的"缩放定律"（Scaling Laws）将此事变成了教科书级别的信念。参数量翻倍、训练数据翻倍、算力翻倍——各项基准测试上的分数也稳稳往上走。

这个信念如此根深蒂固，以至于任何违背它的现象都会被命名成一个专门的研究分支：反向缩放（Inverse Scaling）——模型越强，表现越差。

此前记录过的反向缩放案例，大抵属于几个有限类别：更强的模型更容易被表面特征欺骗（McKenzie et al., 2023）；或者在某些对抗性任务上，越大越固执己见；又或者在某些特定提示格式下，强模型钻进牛角尖。

Merrill等人的这篇论文，记录的反向缩放，属于全新的结构性类别：在超线性增长且存在尾部风险的时序预测任务上，能力最强的模型，犯了最严重的错误。 这不是对抗性构造，也不是提示模板造成的怪癖——你随便拿一份真实的新冠疫情数据、美国麻疹历史数据、或津巴布韦的月度通胀率交给模型，结论都一样。

---

🎮 第二章：ForecastBench-Sim——一座纸牌屋里的实验室

要理解这个结论为何可靠，先得理解研究者怎么做的实验。

第一步：搭建ForecastBench-Sim（FBSim）。这个名字得拆开看。

"ForecastBench"是Forecasting Research Institute此前发布的一套标准化预测基准。"Sim"代表"Simulated"——模拟的。

FBSim的基础是一个叫FreeCiv的开源回合制帝国建设游戏。你如果玩过《文明》系列，想象它的开源远亲就行。在这个游戏里，AI对抗AI，建造城市、扩张领土、积累财富、研发科技。有时天下太平，有时战火纷飞——政权更迭、疆域变迁、国库盈亏，和真实历史一样充满不确定性。

研究者让AI对手互相对战，然后在某个回合"冻结"时间，把当前的游戏状态翻译成一份自然语言的"世界报告"，交给大语言模型。模型的考题是："在未来的第7个回合，罗马人的国库会比现在多还是少？具体是多少？"

这个设计精妙之处在于三点：

其一，无污染（contamination-free）。这些数据全都是程序化生成的，不存在于任何公开训练语料中——不管你的模型把互联网背得多熟，都不可能提前见过"FreeCiv第182057局第60回合罗马人的国库余额"。

其二，真实世界的结构性特征被完整保留：长时间跨度、部分可观测性（你只知道历史上的信息，不知道未来会发生什么黑天鹅事件）、以及偶尔的断裂式冲击——战争爆发、文明覆灭、增长突然转为衰退。

其三，每个问题有配对的双重评分：一半考"会还是不会"（二分类，用Brier评分），一半考"具体是多少"（给五个分位数p10、p25、p50、p75、p90，用连续排序概率评分CRPS衡量）。

> 小贴士：CRPS（Continuous Ranked Probability Score） 是一种衡量概率分布预测质量的指标。你给的不是一个数，而是整个分布的"形状"——你觉得最可能的区间在哪，极端情况可能到哪。CRPS把你的预测分布和真实发生的结果做一个全面的比较。它等同于Brier在所有可能的阈值上的积分。 > > 换句话说，Brier只问"你猜对了吗？"，CRPS问的是"你猜得有多对、在什么情况下猜错了、错得多离谱？"

---

🌊 第三章：关键发现——好模型更会"投机的押注"

FBSim的结果令人不安。

在短期（H1，即预测下一个回合），更强的模型确实预测得更好。 能力分数（ECI，Epoch Capabilities Index）和CRPS之间的Spearman相关系数是+0.67——你上过大学的初级统计学，也能理解这意味着越强的模型预测越准。

但到了第七个回合（H7），这个关系彻底翻转。 相关系数变成了-0.42，95%的自举置信区间是[-0.72, -0.02]，明确排除零。

研究者做了什么？他们把一个预测拆成了五个分位数，逐一查看：

p10（下尾）：在各时间跨度上基本持平。强模型想象"灾难场景"的能力并没有变差。
p90（上尾）：从H1的+0.78（越强越准）一路滑到H7的-0.57（越强越错）。

推理链条因此清晰了——

更强大的模型，对数据的增长趋势更敏感。它看到一条指数曲线，就比弱小模型更确信"这条线会继续往上走"。于是它把分布的上尾（p90分位）疯狂上移，去追踪那个永远不会到来的上涨空间。下尾呢？一动不动。当系统发生"体制变更"（regime change）——战争的爆发、疫情的干预、房价的崩盘——那个被抬得过高的p90分位，离实际掉落的结果越来越远。CRPS的惩罚积分，大笔大笔地落在上尾区域。

好模型不是不会想"坏事"——它们是太会想"好事"了。

---

🦠 第四章：机制分离——SIR模型里的因果真相

FBSim是在一个游戏里发现的规律。游戏可能有各种让人不安心的混淆因素——题材太偏、格式太怪、模型没见过这游戏……

为了锁定因果机制，研究者转向了纯粹的受控实验：SIR流行病学模型。

SIR这三个字母代表流行病学里最基本的三种人群：易感者（Susceptible）、感染者（Infected）、康复者（Recovered）。 一个刚感染的人遇到一个没感染过的人，就在一定概率下把病传给后者。当感染者人数飙升、康复者人数也在累积、剩下的易感者越来越少时——疫情就到了拐点。

研究者生成了50条SIR模拟曲线。每一条都按照标准的流行病学参数设定：感染率、康复率、某个临界时刻触发的公共卫生干预（降低传播率）。结果如下图：

上升阶段：新感染人数以指数级增长
拐点：干预生效，峰值到来
下跌阶段：病例数急速下滑

模型只看到上升阶段的60个数据点，被要求预测未来210个数据点的走向。没有任何标签——只是"这些数字是过去的数据，你能预测未来吗？"

在这个纯受控实验中，CRPS在所有前瞻时间跨度上都呈现反向缩放：ρ = -0.62（p < 0.001，N = 27个模型）。

更重要的是对照组：研究者用完全相同的"崩溃"结构（增长→突然下跌），但在崩溃前是线性增长而非指数增长。线性组的结果呢？正向缩放，ρ = +0.61。两个置信区间不重叠。

崩溃本身不是问题。超线性增长+崩溃——两个条件同时存在——才是。

> 小贴士：超线性增长（Superlinear Growth） 意味着增长速度本身也在加快。线性增长是每个时间单位加固定数量；指数增长是每个时间单位乘以固定比例。疫情初期的新增病例、房地产泡沫末期的房价、恶性通货膨胀时期的物价指数——都是指数级。这种结构是"一切安好"的幻觉最强的时候，也是在幻象破裂的时刻摔得最重的时候。

---

⚖️ 第五章：谁的锅？规模和RLHF，各打五十大板

"更强的模型更差"这句话本身有歧义。什么叫做"更强"？是参数量更大？还是做了更多的对齐训练（RLHF/后训练）？

研究者用Llama 3.1做了一个精妙的2×2对照实验：

	70B	405B
Base（基础模型）	70B-Base	405B-Base
Instruct（对齐后）	70B-Instruct	405B-Instruct

在100条新的SIR模拟曲线上，用Wilcoxon符号秩检验对比CRPS比值。

结论：规模和RLHF，各自独立地加剧了在崩溃场景中的预测误差，且二者还会叠加。

在70B级别，后训练的对齐版本主要是一个"尾部效应"——在典型崩溃系列上还能勉强维持，但尾部已经出问题。到了405B级别，对齐版本的问题已经扩散到"中心趋势"——连中位数预测都开始大幅偏离。

用具体数字说：在崩溃系列中，CRPS被放大10倍以上的情况，从70B-Base的41%上升到了405B-Instruct的63%。

研究者的措辞冷静而审慎。我翻译成大白话：你喂给模型越多的"正确答案偏好"训练，面对它没见过的新崩溃场景时，它就越像一个被灌输了过度信心的赌徒，把所有筹码押在"趋势延续"上。

---

🌍 第六章：走出实验室——从新冠到津巴布韦的真实世界

实验室发现放在真实数据上能复现吗？

研究者测试了四个领域：

COVID-19：60个国家，60天历史数据，预测未来30天新增病例。 反向缩放，ρ = -0.54（95% CI [-0.78, -0.19]）。

美国房价：S&P/Case-Shiller指数，19个大都市区，2005年末的60个月历史。 预测36个月后：ρ = -0.67（[-0.82, -0.40]）——这是所有测试中最强的反向缩放效应。

恶性通货膨胀：10个国家/地区的12次恶性通货膨胀事件。 ρ = -0.59（[-0.82, -0.25]），在12/24/36/48个月的前瞻跨度上一致。

美国麻疹（1928-1962）：疫苗前时代，35个季节，56个州，全量数据1339个州-季节序列。12周历史，20+周预测。 短期正向（2周：ρ = +0.64），中长期反转（16周：ρ = -0.42）。

每一个领域的置信区间都不包含零。这不是巧合。

更绝的是，研究者预设了"流感"作为反例——如果只是"疾病数据导致反向缩放"，那流感应该也有同样的效果，对吧？结果是：现代流感数据（ILINet）ρ = +0.14，历史流感（1919-1951大流行年份）ρ = +0.22。两者都不显著，也没有任何反转的迹象。

原因何在？流感的过冲（overshoot）比麻疹小得多。最极端的流感流行也只有3倍的过冲，而严重的麻疹疫情远不止此。超线性增长的强度不够，就不足以触发反向缩放。这个预注册的假设得到了完美的证实。

---

🤔 第七章：最诡异的发现——知识救不了校准

或许你会想——这些人为什么不告诉模型它面对的是什么数据？

研究者当然想到了。他们做了系统的"知识干预"实验：在给模型的提示中，或在前面加一句"这组数字代表一种传染病在人群中的传播情况"（最小可行领域识别），或在前面直接标明"这是2020年3月某国的每日新冠新增病例"（全领域识别）。

结论令人毛骨悚然：领域知识的效果完全不统一。

COVID-19：标明国家和起始日期后，反向缩放被彻底扭转，变成了正向。强的模型召回"新冠最终会下降"的知识，预测因此变好。
房价：标明城市和年份后，反向缩放大幅减弱（Δρ = +0.86），但仍跨不过零线——知道这是2005年也无济于事，模型仍然部分坚持"涨"的判断。
麻疹：最小可行领域标注就产生了显著的缓解效果。
恶性通货膨胀：完全没有效果。 Δρ = +0.00。

最令人背脊发凉的是这个事实：研究者事后直接问模型"你能不能识别这些数据代表什么历史事件？"——在48次恶性通货膨胀探针中，模型46次正确识别出了具体的通胀危机。模型"知道"这是一场恶性通胀，"知道"它最终会结束——它甚至在预测过程中自己说过："恶性通胀也可能因货币改革而稳定下来，但按照趋势……"——说完"但按照趋势"，它就把中位数预测推到了真实结果的七百万倍之上。

知识是可检索的。先验是可唤醒的。它们就在模型的表示空间里。但它们在那个做预测的瞬间，没有被翻译成校准过的尾部预测。

知道，和知道怎么用到该用的地方，中间隔着一道深渊。

---

📏 第八章：最可怕的隐藏——Brier分数说一切正常

如果论文到此为止，它已经足够成为一篇重要的研究。

但论文真正的核弹在第八章。

你还记得FBSim里每个题目都有"配对"的双重评分吗？同样的模型，同样的世界，两种评分方法：

Brier分数（二分类）：只问"国库涨了还是跌了？" 在这个单一的阈值上评分。
CRPS（连续分布）：问"你预测的整个分布和真实结果的差距有多大？"

在完全一样的输出上、用完全一样的模型、跑完全一样的数据——两个评分的结论方向相反。

在Brier分数上，更强的模型预测更好（ρ = +0.45，正向缩放）。在CRPS上，更强的模型预测更差（ρ = -0.42，反向缩放）。

更微妙的是：你可以从同一个五-分位预测中重新导出一个"伪Brier分数"，只需在某个特定阈值上做一刀切。这个伪Brier，同样显示正向缩放——同样的输出、同样的模型、同样的问题——换把尺子，结论就彻底翻转了。

问题出在哪？Brier只看你踩没踩过一个门槛，CRPS看的是你踏出去的每一步是对是错。 在超线性增长+体制变更的时序预测中，最强的错误不发生在答案中心——"你猜涨还是跌"——而发生在分布的尾部——"你猜能涨多高"。Brier在它的积分范围里，完全不覆盖这个尾部。

Schaeffer等人（2023）之前证明过"度量选择可以让涌现能力看起来像海市蜃楼"。Merrill等人的发现更可怕：度量选择不仅可以让能力的符号缩小或放大——它可以直接让能力符号翻转。 一个只报告Brier或准确率的评估基准，会在我们的数据上欢天喜地地宣布："看，更好的模型确实是更好的预测器！"——与此同时，同一个模型在尾部把真实结果猜错了数百万倍。

而目前所有主流LLM预测评估基准——ForecastBench（Karger et al., 2025）、KalshiBench（Nel, 2025）、以及其他同行评审的预测评测——全部只报告二阈值度量。

---

🩸 第九章：此刻的紧迫性——麻疹正在卷土重来

论文在讨论部分（Discussion）写了一段在学术论文里很少见的急促文字。

作者提到：目前已有活跃的研究将LLM应用于传染病实时预测（Du et al., 2025, Nature Computational Science）。在写作这篇论文的时候，麻疹正因疫苗接种率下降而在全球多地重新爆发，成为世卫组织列出的首要全球健康威胁之一。

本文的研究结果表明：基于LLM的流行病预测，在面对体制变更时会系统性地错误校准上尾——在平和年份过度预测峰值、在真正大爆发时错过峰值的时机——而时机在流行病学中意味着零或一整条命：是提前部署了医疗资源，还是面对突然涌来的病人手足无措。

预测能力的"反向缩放"这件事，从来不是一个人在自家地下室里搞的智力游戏。它可能变成住院人数，也可能变成死亡人数。

---

🔬 第十章：解毒方案——三件事

论文并不只是发现问题和敲警钟。它给出了三条清晰的行动建议。

其一，评估指标的改革。 所有LLM预测评估基准，必须在单阈值评分之外，至少再报告一个能覆盖尾部分布的评分规则（CRPS、对数分数、或多阈值Brier）。在当前的主流评估体系下，"越强越差"这一事实被系统性地隐藏了。

其二，训练目标的审慎反思。 第4章的2×2对照实验已经表明：后训练（RLHF）独立地加剧了崩溃场景中的失败。如果训练继续只奖励"击中对的那个点位"，那么随着模型的规模化，本文记录的这种过度承诺（overcommitment）不可能自动纠正——反而可能加剧。

其三，预测任务中能力-自信的脱钩。 第7章的知识-校准鸿沟是全文最令人不安的发现：模型自己知道危机的存在（46/48次正确识别恶性通胀事件），但它无法在"做预测"这个具体行动中调用这个知识。这暗示着模型内部可能存在某种结构性的"知识路由失败"——就像一个人脑子里装着正确答案，但一开口就说了另一句。机制的解析，研究者称为另一篇论文的主题。

---

🫧 尾声：迷信缩放的人，终将被缩放反噬

让我们回到那个瞭望员的画面。

你有一艘船，船上有个瞭望员。你花了大价钱训练他，给他最好的望远镜，给他最深度的数据分析培训。他的视力越来越好——比你船上的任何前任瞭望员都好得多。

有一天，海平线上出现了一个模糊的轮廓。前任瞭望员拿着望远镜看了半天，说："呃……不太确定，可能是个东西，也可能不是。"

你的新任瞭望员，这位最厉害的角色，把望远镜一抬，三秒钟就做出了精确判断："那是一艘船，航速12节，方向东偏北30度，将在37分钟后与我方相遇。"

你觉得他比前任强太多了。直到12分钟后你发现，那不是船，那是一朵造型奇特的积雨云。

视力越好的人，在看见模糊轮廓时需要越强的克制力——"我看到了，但我不要在那个看见上投注所有的确定性。"

这篇论文，本质上是在向整个AI界传递一句话：在尾部风险面前，自信是毒药。更聪明的模型需要更聪明的度量，更强大的能力需要更强大的反省。

或者，换一句更短的话来收尾——

你越确定一件事，就越该多看一眼。

---

📚 参考文献

1. Merrill, N., Lee, J., & Karger, E. (2026). Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most. *arXiv:2605.22672*. 2. McKenzie, I. R., et al. (2023). Inverse Scaling: When Bigger Isn't Better. *Transactions on Machine Learning Research*. 3. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? *NeurIPS 2023*. 4. Karger, E., et al. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. *ICLR 2025*. 5. Du, H., et al. (2025). Advancing Real-Time Infectious Disease Forecasting Using Large Language Models. *Nature Computational Science, 5(6), 467–480*.

---

#AI #Forecasting #InverseScaling #LLM #流行病预测 #AI风险评估 #智柴系统实验室