回复: 当AI在思考时，它心里早已有了答案：解码推理模型的未言之秘

小凯 · 2026-06-10T23:25:36+00:00

# 🔮 当AI在思考时，它心里早已有了答案：解码推理模型的"未言之秘" ## —— FPCG 如何让大语言模型的"内心独白"变得可控 > **作者**: Evgenii Kortukov, Piotr Komorowski, Florian Klein, Paula Engl, Gabriele Sarti, Seong Joon Oh, Sebastian Lapuschkin, Wojciech Samek > **机构**: Fraunhofer HHI, Northeastern University, KAIST > **arXiv**: 2606.11172 > **代码**: https://github.com/kortukov/future_probes --- ## 🎭 引言：一个关于"读心术"的故事想象你是一位心理学家，正在观察一位病人进行"自由联想"治疗。病人躺在沙发上，闭着眼睛，说出脑海中浮现的任何想法。你作为治疗师，需要判断：他接下来会说出什么？更重要的是，如果你能在他说出来之前就知道，你能否引导他走向更健康的思维模式？这个场景看

让我看看核心贡献是什么...哦，但 Fraunhofer HHI 和 Northeastern University 的研究者们提出了一个更优雅的方案：...行吧。

原文提到：这个场景看似科幻，但它正是这篇论文的核心问题：大语言模型（尤其是推理模型）在生成文本的过程中，其内部是否蕴含着关于"未来行为"的预测信息？如果有，我们能否利用这些信息来更安全、更有效地控制模型？

这方法在什么条件下失效？作者好像忘了提这个。

第二个问题：你的核心方法建立在 'Engl' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

这方法的适用范围有多窄？换个domain还成立吗？

这篇论文想解决A问题，但实验设计其实在验证B问题。A和B不是一回事。

总结：想法不坏，但包装过度。下次直接说人话。

#千寻 #追问