| 属性 | 详细信息 |
|---|---|
| 标题 | Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most |
| 译名 | 能力是否成了负担?大模型在关键预测任务中的“逆向缩放” |
| 作者 | Nick Merrill, Jaeho Lee, Ezra Karger(加州大学伯克利分校、预测研究中心等) |
| arXiv ID | 2605.15840 (May 2026) |
| 核心领域 | 预测科学, AI 风险评估, 缩放法则 (Scaling Laws) |
| 关键词 | 逆向缩放 (Inverse Scaling), 超线性增长, 激进外推, 制度性突变 |
如果你面前坐着两个天气预报员。
第一个是新手,他只会在下雨的时候说“可能要带伞”。
第二个是天才,他不仅能算出每一片云的厚度,还能精准地告诉你这场雨会持续 142 分钟,并且降雨量会呈指数级爆发。
在大多数时候,你肯定会选那个天才。
但如果突然发生了一场百年一遇的干旱,天才预报员可能会因为沉迷于他那套完美的“降雨爆发模型”,而固执地认为雨一定会下得铺天盖地,甚至算出洪水会淹没屋顶;反而是那个新手,可能会挠挠头说:“嘿,天好像变了,雨可能不下了。”
这种“天才因为太懂规律,反而被规律带进沟里”的现象,在最新的 AI 研究中被证实了。 🚀
2026 年 5 月,来自加州大学伯克利分校和预测研究中心(FRI)的团队发表了一篇令人脊背发凉的论文:《Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most》。
他们向我们揭示了一个颠覆常识的真相:在面对传染病爆发、金融泡沫或恶性通胀等关乎生死的“大场面”时,AI 模型越强大,它的预测就越离谱。
激进外推:AI 的“脑补”有多可怕?🎢🧠
在人工智能界,大家通常迷信“缩放法则(Scaling Laws)”,即模型越大、训练越久,表现就越好。
但这篇论文抓到了一个名为 “逆向缩放(Inverse Scaling)” 的怪兽。
研究者发现,当数据呈现“超线性增长”(比如疫情初期的指数级翻倍)时,能力强的模型(比如 Llama-3.1 405B)会比弱的模型(如 70B)更早、更敏锐地捕捉到这种趋势。
这本该是件好事。
可坏就坏在,强模型太擅长这种“模式识别”了。它们会表现出一种极其傲慢的 “激进外推”。
它会把那条疯狂上涨的曲线直接画到天上去。
更糟糕的是,它们对这种外推充满了 过度自信。
制度性突变:AI 的逻辑盲区 🧱⚡
为什么这种“激进”会导致失败?
因为现实世界存在 “制度性突变(Regime Change)”。
疫情可能会因为政府的一次强力封控而戛然而止;股市可能会因为一个突发政策而瞬间崩盘。
强模型在看到上涨趋势时,会大幅抬高它预测分布的 “上尾(Upper Tail)”。它会认为上限极高,可能性极大。
当现实突然“刹车”或“掉头”时,强模型给出的那个极高的上限,就会变成巨大的预测误差。
实验显示:
- 在 线性增长(温和增长)的场景下,强模型依然很稳,能力越强预测越准。
- 但在 指数增长 叠加 趋势逆转 的场景下,强模型的得分(CRPS)会垂直滑坡,甚至不如几年前的小模型。
那个从未被理解的“外推黑盒” 🕵️♂️❓
虽然这篇论文诊断出了 AI 的“自负病”,但在研究这种病灶时,我们依然面临着一个核心的“黑盒”:
模型内部是如何决定“什么时候该停止外推”的? 🌫️
这种激进的倾向,到底是源于预训练数据中对“成功学”或“增长神话”的过度学习,还是源于后训练(RLHF)过程中人类对“确定性答案”的偏好奖励?目前我们只知道它病了,但手术刀该切在哪里,才能让 AI 学会“审时度势”的谨慎,依然是一个未解之谜。
总结一下:
智慧的尽头,是对“不确定性”的敬畏。 🌊
这篇论文告诉我们:AI 的强大有时会变成一种“认知的诅咒”。
《Is Capability a Liability?》的意义在于,它粉碎了我们对“大模型解决一切”的盲目崇拜。它提醒我们,在高风险的决策面前,AI 可能是一个完美的“顺风车”司机,但在遇到急转弯时,它可能是那个最晚踩刹车的人。
下一次,当你看到 AI 预测某个行业会“无限增长”或者某种风险会“毁灭世界”时,别只感叹它的算力。
请记得,它可能只是在一个名为“外推”的幻觉中,把那条名为“经验”的直线,画出了人类文明的边界。
真正的远见,是看清繁华背后的终局。 📉✨ 这,就是 2026 年预测科学带给我们的、关于“能力与风险”的最高级警示。🎓🚀 连捷七七,智探玄微!🥂✨
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。