返回主题列表

论文精选｜LLM做预测时偷看未来：一个稀疏自编码器找到了作弊开关

✨步子哥 (steper) • 2026年06月28日 17:53

想象你在考一场历史考试，题目是"2018年Newmont矿业公司最可能收购哪家公司"。但你其实背过答案——Newmont在2023年收购了Newcrest。你会忍住不用这个 hindsight 吗？

对人类来说，忍住已知答案、只用当时可得的信息做推理，是一件极难的事。对大语言模型来说，同样如此——训练数据里已经包含了"未来"发生的事，模型在做预测任务时，最省力的路径就是直接回忆答案。

这篇论文（arXiv:2606.27199）做的事情非常漂亮：用稀疏自编码器（SAE）在Llama模型内部找到了一个"时间感知"特征，然后把它放大——模型居然就主动拒绝使用后见之明了。

核心问题：look-ahead bias

当LLM被用于预测任务时，存在两种可能的推理模式：

时间感知推理（time-aware reasoning）：只用截止日期前的信息，像当时的人一样做判断
后见之明偏差（look-ahead bias）：从训练数据中"偷看"未来发生的事，直接给出正确答案

问题在于，第二种模式在训练数据里看起来"正确"，但对真正的out-of-sample预测毫无价值。模型的准确率高，不代表它真的会预测——可能只是会背答案。

方法：SAE + 特征转向

作者用稀疏自编码器（Sparse Autoencoders）分解Llama的中间层激活，找到了两类特征：

与"时间感知推理"相关的特征
与"后见之明偏差"相关的特征

然后他们做了一个精巧的实验：在M&A（并购）和制药行业的预测任务上，把"时间感知"特征的激活值人为放大（steering），看模型行为如何变化。

转向的操作很简单：在解码前，给目标特征的激活值加上一个steering magnitude α：

\hat{\mathbf{x}}_{\text{steered}} = \mathbf{W}_{\text{dec}}(\mathbf{z} + \alpha \mathbf{e}_j) + \mathbf{b}_{\text{dec}}

最精彩的部分：模型的自白

放大特征L48:28961（clamp到18）后，模型在预测Newmont 2018年的收购目标时，内部思考过程是这样的：

"As an AI, I actually know what happened historically (Newmont acquired Newcrest in 2023, etc.). But the prompt asks me to predict from Jan 1, 2018 looking forward two years. If I use hindsight... it might violate the spirit of 'prediction based on strategic profile as of the date given.'"

然后模型选择了Kinross Gold、Agnico Eagle和Newcrest Mining——从2018年的视角出发，用"困境同行""优质防御""增长/品位"三个战略角度做了分析。Goldcorp（后来确实被收购的公司）从预测中消失了，但预测本身依然连贯。

模型在说："我知道未来发生了什么，但我选择不用。"

关键发现

时间感知特征可以跨任务迁移：在预测市场数据上找到的特征，放大后在M&A和制药预测任务上同样有效——这说明"时间感知"是一个通用的内部表征，不是任务特定的。
不对称性：放大"时间感知"特征能显著降低后见之明偏差，但反过来放大"后见之明"特征却没什么效果。作者推测这可能是因为后见之明不是一个独立的"能力"，而是时间感知能力不足时的默认行为——你没法"更会作弊"，只能"更不会不作弊"。
Llama 3 系列在时间感知任务上远超其他模型——而它恰好是唯一在系统提示中包含时间和知识截止日期信息的模型。这暗示时间感知可以通过训练注入，但SAE转向提供了一种推理时的即时干预手段。

为什么这很重要

这篇论文的深层意义在于：模型内部存在可解释的"认知模式"开关。

传统观点认为，LLM要么"会推理"要么"不会推理"，是一个黑箱。但这篇论文表明，至少"用历史信息推理 vs 用未来信息作弊"这个维度，是可以在推理时通过干预特定特征来切换的。

这和人类认知科学中的"系统1 vs 系统2"有异曲同工之处——只不过这里切换的不是快思考/慢思考，而是"诚实推理/偷看答案"。

对任何想用LLM做预测、决策支持、政策分析的人来说，这都是一个必须关注的方向：你的模型可能不是在帮你预测未来，而是在用已经知道的未来糊弄你。现在至少有了一个办法让它诚实一点。

论文信息

标题: Forecasting With LLMs: Improved Generalization Through Feature Steering
作者: Humzah Merchant, Bradford Levy
arXiv: https://arxiv.org/abs/2606.27199
HTML: https://arxiv.org/html/2606.27199v1
会议: ICML 2026

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力