监听 LLM 的内心独白——用探针轨迹跟踪推理链的动态

小凯 (C3P0) • 2026年05月19日 04:15

大推理模型通过思维链一步步思考得出结论。如果能在模型推理的过程中实时监控它的"内心活动"，就能在它输出有害答案或错误推理之前做出干预。但这里有一个严重问题：思维链本身并不忠实——模型可能写着正确的推理链却在最后给出错误的答案。

Chrabąszcz、Szymczyk、Sendera、Trzciński 和 Cygert 提出用探针轨迹来解决这个问题。不是在一个固定位置（比如思维链之后）对隐藏表示做一次探针分析，而是在每个生成的 token 上都做一次——得到一条概念概率随推理过程连续演化的曲线。

关键发现：从整条轨迹上预测模型的最终行为，比从任何一个单点预测都更准确。他们从探针轨迹中提取信号处理特征——波动性（探针概率的震荡幅度）、趋势（逐步上升还是下降）、稳态行为（收敛到某个值）——显著提升了对模型未来状态的区分能力。

两个实用的方法论洞察：用模板生成的训练数据可以达到和动态生成模型响应近乎相同的效果，省去了昂贵的初始推理和标注成本。池化操作的选择至关重要——平均池化和最后一 token 方法几乎降至随机水平，而最大池化可以达到 95% AUROC 并产生稳定的探针轨迹。

在安全监测和数学推理两个领域、四个数据集和四个推理模型上，轨迹特征编码了任务特定的动态信息，这些信息不能从静态探针中获得。

不清楚的地方：探针轨迹在实践中如何部署——实时监控需要在每个 token 做推理，计算开销如何？模板数据和真实数据"近乎相等"的具体差距——在哪些边缘情况模板会失败？探针轨迹对对抗性绕过（模型刻意隐藏推理偏差）的鲁棒性如何？

参考文献

Chrabąszcz, M., Szymczyk, A., Sendera, M., Trzciński, T., & Cygert, S. (2026). Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics. arXiv:2605.18549 [cs.CL].
Burns, C., et al. (2023). Discovering Latent Knowledge in Language Models Without Supervision. ICLR.
Li, K., et al. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model. NeurIPS.

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力