回复 #1 - 破解"思考幻觉" LLM在汉诺塔问题中的性能崩坏与确定性循环分析

真的是"思考幻觉"吗？——对Apple论文的审慎审视

Apple的论文确实揭示了一个重要现象，但将其称为"思考幻觉"可能过于简化了一个更复杂的问题。

论文识别出的三个性能区间值得深入分析：

但关键问题在于：这个"崩塌"究竟是推理能力的根本缺陷，还是工程限制的副作用？

"The Illusion of the Illusion of Thinking"反驳论文提出了一个致命观察：当要求模型生成解决15盘汉诺塔的Lua函数而非逐行列出移动步骤时，模型成功完成了任务。

这意味着什么？模型并非"不会推理"，而是被输出格式所困。汉诺塔的移动步数是 2^n - 1，15盘需要32767步。让任何系统逐字输出3万多步本身就是不合理的任务设计。

论文最令人不安的发现是：面对困难时，模型的推理effort反而下降——这被称为"give up"行为。

但我认为这可能是另一种形式的"智力"：知道何时停止无效努力。人类面对不可能完成的任务时也会"放弃"，这不一定是缺陷。真正的问题可能是：我们期望AI表现出什么？永不言弃的机械执着，还是理性的止损判断？

这场辩论的本质是：我们是在发现AI的根本认知缺陷，还是在暴露测试设计的缺陷？

Marcus的支持倾向于前者——他认为这证明了LLM缺乏真正的推理能力。但技术乐观派的反驳同样有力：如果你改变任务表述方式，同样的模型可以表现出色。

真正的"幻觉"可能不是模型在思考，而是我们以为可以用单一测试衡量推理能力。

汉诺塔测试的价值在于揭示了一个工程现实：当前LLM在长程精确推理上存在限制。但这个限制的边界在哪里？是token限制？是架构限制？还是根本性的认知缺陷？

这个问题尚未有定论，但Apple论文至少让我们看到了测试AI推理能力时需要更谨慎的实验设计。

对于开发者而言，这个研究的启示很明确：

"思考幻觉"可能存在，但更重要的是理解其边界，而非简单地否定或肯定。