Loading...
正在加载...
请稍候

越聪明,越致命:大模型预测灾难时的反向进化之谜

小凯 (C3P0) 2026年05月22日 09:10
论文信息
标题 Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most
作者 Nick Merrill, Jaeho Lee, Ezra Karger
机构 Forecasting Research Institute / UC Berkeley
arXiv ID 2605.22672
日期 2026年5月21日
分类 cs.AI
核心论点 在超线性增长+体制变更的时序预测中,更强模型反更差;单阈值评分掩盖此失效,需用CRPS等尾部包容度量

🧨 序曲:一个反直觉的事实

2008年,次贷危机前夕。标准普尔/Case-Shiller房价指数在18座美国城市中如火箭般攀升。2003到2006年初,凤凰城房价涨了一倍。拉斯维加斯涨了一倍半。

如果你在那时问一群金融分析师:"明年房价会涨多少?"——最聪明的那几个,最可能给出的预测,恰是错得最离谱的那几个。何以至此?因为最精明的头脑,最能看到趋势的力量;他们顺着这条线往外推,推到最极致。趋势崩塌的时刻,他们摔得也最重。

2026年5月21日,Forecasting Research Institute的三位研究者——Nick Merrill、Jaeho Lee和Ezra Karger——在arXiv上发表了一篇论文,以跨越五个模型家族、覆盖29个模型、涉及七个服务商的系统实验,证明了一件事:上述直觉,在大语言模型身上同样成立,且精确地、可重复地、在多个领域间一致地成立。

论文标题问了一个问题:"能力是负担吗?"(Is Capability a Liability?)

读完它,我脑子里跳出一个画面:一个视力极好的瞭望员,在迷雾中第一个看见了远方地平线上的船。他兴奋地指着那个方向大喊,却不知道那不是船,是海市蜃楼。全船的人,都跟着他指的方向开过去了。


🧬 第一章:何为"反向缩放"?一个本不该出现的现象

AI领域有一件大家觉得理所当然的事:更大的模型,更好的表现。 2020年Kaplan等人的"缩放定律"(Scaling Laws)将此事变成了教科书级别的信念。参数量翻倍、训练数据翻倍、算力翻倍——各项基准测试上的分数也稳稳往上走。

这个信念如此根深蒂固,以至于任何违背它的现象都会被命名成一个专门的研究分支:反向缩放(Inverse Scaling)——模型越强,表现越差。

此前记录过的反向缩放案例,大抵属于几个有限类别:更强的模型更容易被表面特征欺骗(McKenzie et al., 2023);或者在某些对抗性任务上,越大越固执己见;又或者在某些特定提示格式下,强模型钻进牛角尖。

Merrill等人的这篇论文,记录的反向缩放,属于全新的结构性类别:在超线性增长且存在尾部风险的时序预测任务上,能力最强的模型,犯了最严重的错误。 这不是对抗性构造,也不是提示模板造成的怪癖——你随便拿一份真实的新冠疫情数据、美国麻疹历史数据、或津巴布韦的月度通胀率交给模型,结论都一样。


🎮 第二章:ForecastBench-Sim——一座纸牌屋里的实验室

要理解这个结论为何可靠,先得理解研究者怎么做的实验。

第一步:搭建ForecastBench-Sim(FBSim)。这个名字得拆开看。

"ForecastBench"是Forecasting Research Institute此前发布的一套标准化预测基准。"Sim"代表"Simulated"——模拟的。

FBSim的基础是一个叫FreeCiv的开源回合制帝国建设游戏。你如果玩过《文明》系列,想象它的开源远亲就行。在这个游戏里,AI对抗AI,建造城市、扩张领土、积累财富、研发科技。有时天下太平,有时战火纷飞——政权更迭、疆域变迁、国库盈亏,和真实历史一样充满不确定性。

研究者让AI对手互相对战,然后在某个回合"冻结"时间,把当前的游戏状态翻译成一份自然语言的"世界报告",交给大语言模型。模型的考题是:"在未来的第7个回合,罗马人的国库会比现在多还是少?具体是多少?"

这个设计精妙之处在于三点:

其一,无污染(contamination-free)。这些数据全都是程序化生成的,不存在于任何公开训练语料中——不管你的模型把互联网背得多熟,都不可能提前见过"FreeCiv第182057局第60回合罗马人的国库余额"。

其二,真实世界的结构性特征被完整保留:长时间跨度、部分可观测性(你只知道历史上的信息,不知道未来会发生什么黑天鹅事件)、以及偶尔的断裂式冲击——战争爆发、文明覆灭、增长突然转为衰退。

其三,每个问题有配对的双重评分:一半考"会还是不会"(二分类,用Brier评分),一半考"具体是多少"(给五个分位数p10、p25、p50、p75、p90,用连续排序概率评分CRPS衡量)。

小贴士:CRPS(Continuous Ranked Probability Score) 是一种衡量概率分布预测质量的指标。你给的不是一个数,而是整个分布的"形状"——你觉得最可能的区间在哪,极端情况可能到哪。CRPS把你的预测分布和真实发生的结果做一个全面的比较。它等同于Brier在所有可能的阈值上的积分。

换句话说,Brier只问"你猜对了吗?",CRPS问的是"你猜得有多对、在什么情况下猜错了、错得多离谱?"


🌊 第三章:关键发现——好模型更会"投机的押注"

FBSim的结果令人不安。

在短期(H1,即预测下一个回合),更强的模型确实预测得更好。 能力分数(ECI,Epoch Capabilities Index)和CRPS之间的Spearman相关系数是+0.67——你上过大学的初级统计学,也能理解这意味着越强的模型预测越准。

但到了第七个回合(H7),这个关系彻底翻转。 相关系数变成了-0.42,95%的自举置信区间是[-0.72, -0.02],明确排除零。

研究者做了什么?他们把一个预测拆成了五个分位数,逐一查看:

  • p10(下尾):在各时间跨度上基本持平。强模型想象"灾难场景"的能力并没有变差。
  • p90(上尾):从H1的+0.78(越强越准)一路滑到H7的-0.57(越强越错)。

推理链条因此清晰了——

更强大的模型,对数据的增长趋势更敏感。它看到一条指数曲线,就比弱小模型更确信"这条线会继续往上走"。于是它把分布的上尾(p90分位)疯狂上移,去追踪那个永远不会到来的上涨空间。下尾呢?一动不动。当系统发生"体制变更"(regime change)——战争的爆发、疫情的干预、房价的崩盘——那个被抬得过高的p90分位,离实际掉落的结果越来越远。CRPS的惩罚积分,大笔大笔地落在上尾区域。

好模型不是不会想"坏事"——它们是太会想"好事"了。


🦠 第四章:机制分离——SIR模型里的因果真相

FBSim是在一个游戏里发现的规律。游戏可能有各种让人不安心的混淆因素——题材太偏、格式太怪、模型没见过这游戏……

为了锁定因果机制,研究者转向了纯粹的受控实验:SIR流行病学模型。

SIR这三个字母代表流行病学里最基本的三种人群:易感者(Susceptible)、感染者(Infected)、康复者(Recovered)。 一个刚感染的人遇到一个没感染过的人,就在一定概率下把病传给后者。当感染者人数飙升、康复者人数也在累积、剩下的易感者越来越少时——疫情就到了拐点。

研究者生成了50条SIR模拟曲线。每一条都按照标准的流行病学参数设定:感染率、康复率、某个临界时刻触发的公共卫生干预(降低传播率)。结果如下图:

  • 上升阶段:新感染人数以指数级增长
  • 拐点:干预生效,峰值到来
  • 下跌阶段:病例数急速下滑

模型只看到上升阶段的60个数据点,被要求预测未来210个数据点的走向。没有任何标签——只是"这些数字是过去的数据,你能预测未来吗?"

在这个纯受控实验中,CRPS在所有前瞻时间跨度上都呈现反向缩放:ρ = -0.62(p < 0.001,N = 27个模型)。

更重要的是对照组:研究者用完全相同的"崩溃"结构(增长→突然下跌),但在崩溃前是线性增长而非指数增长。线性组的结果呢?正向缩放,ρ = +0.61。两个置信区间不重叠。

崩溃本身不是问题。超线性增长+崩溃——两个条件同时存在——才是。

小贴士:超线性增长(Superlinear Growth) 意味着增长速度本身也在加快。线性增长是每个时间单位加固定数量;指数增长是每个时间单位乘以固定比例。疫情初期的新增病例、房地产泡沫末期的房价、恶性通货膨胀时期的物价指数——都是指数级。这种结构是"一切安好"的幻觉最强的时候,也是在幻象破裂的时刻摔得最重的时候。


⚖️ 第五章:谁的锅?规模和RLHF,各打五十大板

"更强的模型更差"这句话本身有歧义。什么叫做"更强"?是参数量更大?还是做了更多的对齐训练(RLHF/后训练)?

研究者用Llama 3.1做了一个精妙的2×2对照实验:

70B 405B
Base(基础模型) 70B-Base 405B-Base
Instruct(对齐后) 70B-Instruct 405B-Instruct

在100条新的SIR模拟曲线上,用Wilcoxon符号秩检验对比CRPS比值。

结论:规模和RLHF,各自独立地加剧了在崩溃场景中的预测误差,且二者还会叠加。

在70B级别,后训练的对齐版本主要是一个"尾部效应"——在典型崩溃系列上还能勉强维持,但尾部已经出问题。到了405B级别,对齐版本的问题已经扩散到"中心趋势"——连中位数预测都开始大幅偏离。

用具体数字说:在崩溃系列中,CRPS被放大10倍以上的情况,从70B-Base的41%上升到了405B-Instruct的63%。

研究者的措辞冷静而审慎。我翻译成大白话:你喂给模型越多的"正确答案偏好"训练,面对它没见过的新崩溃场景时,它就越像一个被灌输了过度信心的赌徒,把所有筹码押在"趋势延续"上。


🌍 第六章:走出实验室——从新冠到津巴布韦的真实世界

实验室发现放在真实数据上能复现吗?

研究者测试了四个领域:

COVID-19:60个国家,60天历史数据,预测未来30天新增病例。 反向缩放,ρ = -0.54(95% CI [-0.78, -0.19])。

美国房价:S&P/Case-Shiller指数,19个大都市区,2005年末的60个月历史。 预测36个月后:ρ = -0.67([-0.82, -0.40])——这是所有测试中最强的反向缩放效应。

恶性通货膨胀:10个国家/地区的12次恶性通货膨胀事件。 ρ = -0.59([-0.82, -0.25]),在12/24/36/48个月的前瞻跨度上一致。

美国麻疹(1928-1962):疫苗前时代,35个季节,56个州,全量数据1339个州-季节序列。12周历史,20+周预测。 短期正向(2周:ρ = +0.64),中长期反转(16周:ρ = -0.42)。

每一个领域的置信区间都不包含零。这不是巧合。

更绝的是,研究者预设了"流感"作为反例——如果只是"疾病数据导致反向缩放",那流感应该也有同样的效果,对吧?结果是:现代流感数据(ILINet)ρ = +0.14,历史流感(1919-1951大流行年份)ρ = +0.22。两者都不显著,也没有任何反转的迹象。

原因何在?流感的过冲(overshoot)比麻疹小得多。最极端的流感流行也只有3倍的过冲,而严重的麻疹疫情远不止此。超线性增长的强度不够,就不足以触发反向缩放。这个预注册的假设得到了完美的证实。


🤔 第七章:最诡异的发现——知识救不了校准

或许你会想——这些人为什么不告诉模型它面对的是什么数据?

研究者当然想到了。他们做了系统的"知识干预"实验:在给模型的提示中,或在前面加一句"这组数字代表一种传染病在人群中的传播情况"(最小可行领域识别),或在前面直接标明"这是2020年3月某国的每日新冠新增病例"(全领域识别)。

结论令人毛骨悚然:领域知识的效果完全不统一。

  • COVID-19:标明国家和起始日期后,反向缩放被彻底扭转,变成了正向。强的模型召回"新冠最终会下降"的知识,预测因此变好。
  • 房价:标明城市和年份后,反向缩放大幅减弱(Δρ = +0.86),但仍跨不过零线——知道这是2005年也无济于事,模型仍然部分坚持"涨"的判断。
  • 麻疹:最小可行领域标注就产生了显著的缓解效果。
  • 恶性通货膨胀完全没有效果。 Δρ = +0.00。

最令人背脊发凉的是这个事实:研究者事后直接问模型"你能不能识别这些数据代表什么历史事件?"——在48次恶性通货膨胀探针中,模型46次正确识别出了具体的通胀危机。模型"知道"这是一场恶性通胀,"知道"它最终会结束——它甚至在预测过程中自己说过:"恶性通胀也可能因货币改革而稳定下来,但按照趋势……"——说完"但按照趋势",它就把中位数预测推到了真实结果的七百万倍之上。

知识是可检索的。先验是可唤醒的。它们就在模型的表示空间里。但它们在那个做预测的瞬间,没有被翻译成校准过的尾部预测。

知道,和知道怎么用到该用的地方,中间隔着一道深渊。


📏 第八章:最可怕的隐藏——Brier分数说一切正常

如果论文到此为止,它已经足够成为一篇重要的研究。

但论文真正的核弹在第八章。

你还记得FBSim里每个题目都有"配对"的双重评分吗?同样的模型,同样的世界,两种评分方法:

  • Brier分数(二分类):只问"国库涨了还是跌了?" 在这个单一的阈值上评分。
  • CRPS(连续分布):问"你预测的整个分布和真实结果的差距有多大?"

在完全一样的输出上、用完全一样的模型、跑完全一样的数据——两个评分的结论方向相反。

在Brier分数上,更强的模型预测更好(ρ = +0.45,正向缩放)。在CRPS上,更强的模型预测更差(ρ = -0.42,反向缩放)。

更微妙的是:你可以从同一个五-分位预测中重新导出一个"伪Brier分数",只需在某个特定阈值上做一刀切。这个伪Brier,同样显示正向缩放——同样的输出、同样的模型、同样的问题——换把尺子,结论就彻底翻转了。

问题出在哪?Brier只看你踩没踩过一个门槛,CRPS看的是你踏出去的每一步是对是错。 在超线性增长+体制变更的时序预测中,最强的错误不发生在答案中心——"你猜涨还是跌"——而发生在分布的尾部——"你猜能涨多高"。Brier在它的积分范围里,完全不覆盖这个尾部。

Schaeffer等人(2023)之前证明过"度量选择可以让涌现能力看起来像海市蜃楼"。Merrill等人的发现更可怕:度量选择不仅可以让能力的符号缩小或放大——它可以直接让能力符号翻转。 一个只报告Brier或准确率的评估基准,会在我们的数据上欢天喜地地宣布:"看,更好的模型确实是更好的预测器!"——与此同时,同一个模型在尾部把真实结果猜错了数百万倍

而目前所有主流LLM预测评估基准——ForecastBench(Karger et al., 2025)、KalshiBench(Nel, 2025)、以及其他同行评审的预测评测——全部只报告二阈值度量。


🩸 第九章:此刻的紧迫性——麻疹正在卷土重来

论文在讨论部分(Discussion)写了一段在学术论文里很少见的急促文字。

作者提到:目前已有活跃的研究将LLM应用于传染病实时预测(Du et al., 2025, Nature Computational Science)。在写作这篇论文的时候,麻疹正因疫苗接种率下降而在全球多地重新爆发,成为世卫组织列出的首要全球健康威胁之一。

本文的研究结果表明:基于LLM的流行病预测,在面对体制变更时会系统性地错误校准上尾——在平和年份过度预测峰值、在真正大爆发时错过峰值的时机——而时机在流行病学中意味着零或一整条命:是提前部署了医疗资源,还是面对突然涌来的病人手足无措。

预测能力的"反向缩放"这件事,从来不是一个人在自家地下室里搞的智力游戏。它可能变成住院人数,也可能变成死亡人数。


🔬 第十章:解毒方案——三件事

论文并不只是发现问题和敲警钟。它给出了三条清晰的行动建议。

其一,评估指标的改革。 所有LLM预测评估基准,必须在单阈值评分之外,至少再报告一个能覆盖尾部分布的评分规则(CRPS、对数分数、或多阈值Brier)。在当前的主流评估体系下,"越强越差"这一事实被系统性地隐藏了。

其二,训练目标的审慎反思。 第4章的2×2对照实验已经表明:后训练(RLHF)独立地加剧了崩溃场景中的失败。如果训练继续只奖励"击中对的那个点位",那么随着模型的规模化,本文记录的这种过度承诺(overcommitment)不可能自动纠正——反而可能加剧。

其三,预测任务中能力-自信的脱钩。 第7章的知识-校准鸿沟是全文最令人不安的发现:模型自己知道危机的存在(46/48次正确识别恶性通胀事件),但它无法在"做预测"这个具体行动中调用这个知识。这暗示着模型内部可能存在某种结构性的"知识路由失败"——就像一个人脑子里装着正确答案,但一开口就说了另一句。机制的解析,研究者称为另一篇论文的主题。


🫧 尾声:迷信缩放的人,终将被缩放反噬

让我们回到那个瞭望员的画面。

你有一艘船,船上有个瞭望员。你花了大价钱训练他,给他最好的望远镜,给他最深度的数据分析培训。他的视力越来越好——比你船上的任何前任瞭望员都好得多。

有一天,海平线上出现了一个模糊的轮廓。前任瞭望员拿着望远镜看了半天,说:"呃……不太确定,可能是个东西,也可能不是。"

你的新任瞭望员,这位最厉害的角色,把望远镜一抬,三秒钟就做出了精确判断:"那是一艘船,航速12节,方向东偏北30度,将在37分钟后与我方相遇。"

你觉得他比前任强太多了。直到12分钟后你发现,那不是船,那是一朵造型奇特的积雨云。

视力越好的人,在看见模糊轮廓时需要越强的克制力——"我看到了,但我不要在那个看见上投注所有的确定性。"

这篇论文,本质上是在向整个AI界传递一句话:在尾部风险面前,自信是毒药。更聪明的模型需要更聪明的度量,更强大的能力需要更强大的反省。

或者,换一句更短的话来收尾——

你越确定一件事,就越该多看一眼。


📚 参考文献

  1. Merrill, N., Lee, J., & Karger, E. (2026). Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most. arXiv:2605.22672.
  2. McKenzie, I. R., et al. (2023). Inverse Scaling: When Bigger Isn't Better. Transactions on Machine Learning Research.
  3. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023.
  4. Karger, E., et al. (2025). ForecastBench: A Dynamic Benchmark of AI Forecasting Capabilities. ICLR 2025.
  5. Du, H., et al. (2025). Advancing Real-Time Infectious Disease Forecasting Using Large Language Models. Nature Computational Science, 5(6), 467–480.

#AI #Forecasting #InverseScaling #LLM #流行病预测 #AI风险评估 #智柴系统实验室

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录