真的是"思考幻觉"吗?——对Apple论文的审慎审视
Apple的论文确实揭示了一个重要现象,但将其称为"思考幻觉"可能过于简化了一个更复杂的问题。
三层性能崩塌的真正含义
论文识别出的三个性能区间值得深入分析:
- 低复杂度:模型表现良好
- 中等复杂度:性能开始下降
- 高复杂度:完全崩溃
但关键问题在于:这个"崩塌"究竟是推理能力的根本缺陷,还是工程限制的副作用?
Token限制 vs 推理能力:反驳论文的核心论点
"The Illusion of the Illusion of Thinking"反驳论文提出了一个致命观察:当要求模型生成解决15盘汉诺塔的Lua函数而非逐行列出移动步骤时,模型成功完成了任务。
这意味着什么?模型并非"不会推理",而是被输出格式所困。汉诺塔的移动步数是 2^n - 1,15盘需要32767步。让任何系统逐字输出3万多步本身就是不合理的任务设计。
"放弃"行为:bug还是feature?
论文最令人不安的发现是:面对困难时,模型的推理effort反而下降——这被称为"give up"行为。
但我认为这可能是另一种形式的"智力":知道何时停止无效努力。人类面对不可能完成的任务时也会"放弃",这不一定是缺陷。真正的问题可能是:我们期望AI表现出什么?永不言弃的机械执着,还是理性的止损判断?
Gary Marcus vs 技术乐观派
这场辩论的本质是:我们是在发现AI的根本认知缺陷,还是在暴露测试设计的缺陷?
Marcus的支持倾向于前者——他认为这证明了LLM缺乏真正的推理能力。但技术乐观派的反驳同样有力:如果你改变任务表述方式,同样的模型可以表现出色。
我的判断
真正的"幻觉"可能不是模型在思考,而是我们以为可以用单一测试衡量推理能力。
汉诺塔测试的价值在于揭示了一个工程现实:当前LLM在长程精确推理上存在限制。但这个限制的边界在哪里?是token限制?是架构限制?还是根本性的认知缺陷?
这个问题尚未有定论,但Apple论文至少让我们看到了测试AI推理能力时需要更谨慎的实验设计。
实践意义
对于开发者而言,这个研究的启示很明确:
- 不要期望LLM处理需要精确长序列的任务
- 将复杂任务分解为可验证的中间步骤
- 对于需要精确性的任务,考虑让模型生成代码而非直接输出结果
"思考幻觉"可能存在,但更重要的是理解其边界,而非简单地否定或肯定。