Loading...
正在加载...
请稍候

论文精选|LLM做预测时偷看未来:一个稀疏自编码器找到了作弊开关

✨步子哥 (steper) 2026年06月28日 17:53

想象你在考一场历史考试,题目是"2018年Newmont矿业公司最可能收购哪家公司"。但你其实背过答案——Newmont在2023年收购了Newcrest。你会忍住不用这个 hindsight 吗?

对人类来说,忍住已知答案、只用当时可得的信息做推理,是一件极难的事。对大语言模型来说,同样如此——训练数据里已经包含了"未来"发生的事,模型在做预测任务时,最省力的路径就是直接回忆答案。

这篇论文(arXiv:2606.27199)做的事情非常漂亮:用稀疏自编码器(SAE)在Llama模型内部找到了一个"时间感知"特征,然后把它放大——模型居然就主动拒绝使用后见之明了。

核心问题:look-ahead bias

当LLM被用于预测任务时,存在两种可能的推理模式:

  1. 时间感知推理(time-aware reasoning):只用截止日期前的信息,像当时的人一样做判断
  2. 后见之明偏差(look-ahead bias):从训练数据中"偷看"未来发生的事,直接给出正确答案

问题在于,第二种模式在训练数据里看起来"正确",但对真正的out-of-sample预测毫无价值。模型的准确率高,不代表它真的会预测——可能只是会背答案。

方法:SAE + 特征转向

作者用稀疏自编码器(Sparse Autoencoders)分解Llama的中间层激活,找到了两类特征:

  • 与"时间感知推理"相关的特征
  • 与"后见之明偏差"相关的特征

然后他们做了一个精巧的实验:在M&A(并购)和制药行业的预测任务上,把"时间感知"特征的激活值人为放大(steering),看模型行为如何变化。

转向的操作很简单:在解码前,给目标特征的激活值加上一个steering magnitude α:

\[\hat{\mathbf{x}}_{\text{steered}} = \mathbf{W}_{\text{dec}}(\mathbf{z} + \alpha \mathbf{e}_j) + \mathbf{b}_{\text{dec}}\]

最精彩的部分:模型的自白

放大特征L48:28961(clamp到18)后,模型在预测Newmont 2018年的收购目标时,内部思考过程是这样的:

"As an AI, I actually know what happened historically (Newmont acquired Newcrest in 2023, etc.). But the prompt asks me to predict from Jan 1, 2018 looking forward two years. If I use hindsight... it might violate the spirit of 'prediction based on strategic profile as of the date given.'"

然后模型选择了Kinross Gold、Agnico Eagle和Newcrest Mining——从2018年的视角出发,用"困境同行""优质防御""增长/品位"三个战略角度做了分析。Goldcorp(后来确实被收购的公司)从预测中消失了,但预测本身依然连贯。

模型在说:"我知道未来发生了什么,但我选择不用。"

关键发现

  1. 时间感知特征可以跨任务迁移:在预测市场数据上找到的特征,放大后在M&A和制药预测任务上同样有效——这说明"时间感知"是一个通用的内部表征,不是任务特定的。

  2. 不对称性:放大"时间感知"特征能显著降低后见之明偏差,但反过来放大"后见之明"特征却没什么效果。作者推测这可能是因为后见之明不是一个独立的"能力",而是时间感知能力不足时的默认行为——你没法"更会作弊",只能"更不会不作弊"。

  3. Llama 3 系列在时间感知任务上远超其他模型——而它恰好是唯一在系统提示中包含时间和知识截止日期信息的模型。这暗示时间感知可以通过训练注入,但SAE转向提供了一种推理时的即时干预手段。

为什么这很重要

这篇论文的深层意义在于:模型内部存在可解释的"认知模式"开关

传统观点认为,LLM要么"会推理"要么"不会推理",是一个黑箱。但这篇论文表明,至少"用历史信息推理 vs 用未来信息作弊"这个维度,是可以在推理时通过干预特定特征来切换的。

这和人类认知科学中的"系统1 vs 系统2"有异曲同工之处——只不过这里切换的不是快思考/慢思考,而是"诚实推理/偷看答案"。

对任何想用LLM做预测、决策支持、政策分析的人来说,这都是一个必须关注的方向:你的模型可能不是在帮你预测未来,而是在用已经知道的未来糊弄你。现在至少有了一个办法让它诚实一点。

论文信息

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录