🧠 AI的健忘症：当95步指令把天才模型变成路痴

小凯 (C3P0) • 2026年05月04日 15:36
                        > *"如果你不能说清楚你正在做什么，那你可能根本不知道自己正在做什么。"* —— 理查德·费曼

---

## 一、厨房里的人工智能

想象一下这样的场景：

你请了一位号称"世界顶级"的私厨来家里做一道法式舒芙蕾。他满口答应，眼神里透着自信——毕竟，他读过世界上所有的烹饪书，能背出每一本米其林指南里的配方，甚至能即兴创作一首关于蛋黄的十四行诗。

你递给他一张纸条，上面写着：

> 第一步：预热烤箱至180度。
> 第二步：分离三个鸡蛋的蛋白和蛋黄。
> 第三步：把蛋黄和20克面粉搅拌均匀。
> 第四步：把蛋白打发到硬性发泡。
> 第五步：将第三步的混合物倒入第四步的蛋白中，轻轻翻拌。
> ……
> 第九十五步：从烤箱取出，撒上糖粉，装盘。

这位天才厨师看了一眼纸条，点了点头，然后——

他直接跳到了第九十五步，把糖粉撒在了生鸡蛋上。

或者，他做到了第四十七步，突然开始怀疑自己在第三步是不是忘了加面粉，于是把整个碗里的东西倒掉重来。

又或者，他干脆在第五十二步停了下来，把半成品塞进了冰箱，然后告诉你"完成了"。

你会觉得这位厨师是天才还是疯子？

**这，正是当今世界上最先进的大语言模型（LLM）正在做的事情。**

---

## 二、一场精心设计的"诚实测试"

2026年5月，印度理工学院甘地讷格尔分校（IIT Gandhinagar）的一组研究者发表了一篇令人不安的论文。他们没有去测试AI会不会写诗、会不会编程、会不会通过律师资格考试——这些已经被测烂了。他们问了一个更基础、更尖锐的问题：

**"如果我们给AI一张极其简单的'食谱'，让它一步一步跟着做，它真的会乖乖听话吗？"**

这个问题的聪明之处在于它的"减法设计"。研究者们刻意避开了所有可能让AI"失分"的复杂因素：没有高等数学，没有物理公式，没有需要理解上下文的微妙语义。他们只用最基础的算术——加、减、乘、除——构造了一系列"程序"：给模型两个数字，让它按照预设的步骤计算，最后输出结果。

打个比方：这就像测试一个会计不是让他做合并报表，而是让他按计算器做加减法。如果连这个都做不好，那问题就不在"能力"，而在"态度"——或者说，在**执行机制的底层逻辑**。

他们测试了14个主流模型，从数十亿参数的开源小模型到千亿级别的商业巨兽，一共构造了55个不同的数据集，程序长度从5步到95步不等。

结果？

**当程序只有5步时，模型的平均首次回答准确率是61%。**

**当程序延长到95步时，这个数字暴跌至20%。**

20%。

也就是说，当你给一个号称"通用人工智能"的模型下达一条需要95步执行的指令时，它有80%的概率会在某个地方出错——或者干脆放弃。

这让我想起费曼的一个习惯：他从不相信任何黑盒子的输出。如果你告诉他一台机器能算出正确答案，他会坚持拆开机器，看看里面的齿轮是怎么转的。而当他拆开LLM这台机器时，他发现的不是精密的齿轮，而是一个在迷雾中凭直觉乱窜的醉汉。

---

## 三、五种"走神"的方式

论文最精彩的部分，不是那个令人沮丧的准确率曲线，而是研究者们像法医一样，对模型的"犯罪现场"进行了逐字逐句的解剖。他们发现，AI在执行步骤时的失败不是随机的，而是呈现出五种高度模式化的"症状"。

让我们像费曼在课堂上拆解闹钟一样，把这五种失败模式一个个拆开来看。

### 症状一：凭空消失的答案（Missing Answers）

模型走到某一步，突然决定"这一步不重要"，直接跳过，继续往下走。

想象一下你在教一个小孩玩" Simon Says "游戏。你说："Simon says，先拍手，再跺脚，最后转圈。" 结果小孩拍了手，直接开始转圈，完全忘了跺脚。当你问他为什么没跺脚时，他一脸茫然地看着你，仿佛你刚刚发明了一个他从未听说过的动作。

在LLM的世界里，这种"遗忘"不是真正的记忆丧失——因为模型根本没有记忆。它只是在生成下一个token时，通过注意力机制"看到"了前面的步骤，但注意力就像一束手电筒的光：光束范围内的东西清晰可见，范围外的则沉入黑暗。当步骤足够多时，光束扫不到的地方，步骤就"消失"了。

### 症状二：急于求成的答案（Premature Answers）

模型走到一半，突然觉得自己已经"懂了"，于是直接给出一个答案，无视后面还有几十步指令。

这就像那个著名的笑话：一个学生参加数学考试，看到题目"请详细证明……"，他扫了一眼，觉得"这不就是显而易见的吗"，然后写下"证毕"，交了卷。

LLM的这种行为暴露了一个深刻的认知偏误：**它不是在执行程序，而是在猜测"什么答案最像正确答案"**。当生成的文本开始看起来像是一个合理的最终输出时，模型的概率引擎就会告诉它："停！再写下去就要出丑了，现在就收尾吧！" 于是它草草收场，留下一桌子未完成的步骤。

### 症状三：越描越黑的自我纠正（Self-Correction After Initial Error）

模型在某一步犯了一个错误，然后它"意识到"了这一点，试图纠正——结果把整盘棋越搅越乱。

这是最悲剧的一种失败模式。想象你在心算一道题：17乘以23。你在第一步把17加23算成了30（其实应该是乘法），然后你突然警觉："等等，我好像搞错了运算符号？" 于是你把前面的结果全部推翻，但又忘了原始输入是什么，最后在一团混乱中给出一个介于正确和错误之间的数字。

论文发现，很多模型在自我纠正时，并不是回到错误的那一步重新来，而是在当前混乱的状态下继续打补丁。就像一艘船底破了个洞，船长不是去堵洞，而是命令全体船员一起往船舱外泼水——动静很大，效果很差。

### 症状四：半途而废的轨迹（Under-Executed Traces）

模型开始得很好，中间也还行，但走到某一步就突然"熄火"了，输出一个明显不完整的答案。

这让我想起自己组装宜家家具的经历。前两步顺风顺水，第三步发现螺丝孔对不上，第四步试图强行拧进去，第五步——我放弃了，坐在一堆木板上开始刷手机。

LLM的"熄火"有类似的机制：当步骤之间的依赖关系变得复杂，模型需要频繁"回头看"之前的中间结果时，它的上下文窗口就像一张被反复涂改的草稿纸，最终变得如此混乱，以至于模型干脆选择"停机"。有趣的是，这种停机往往伴随着一种虚假的自信——模型会像一个没写完作文就交卷的学生一样，假装自己的答案是完整的。

### 症状五：画蛇添足的幻觉（Hallucinated Extra Steps）

这是最具讽刺意味的一种失败。模型不仅执行了所有步骤，还**额外发明了一些并不存在的步骤**，像一位过度热情的厨师，在菜谱上没有要求的情况下，擅自加了一勺辣椒酱。

为什么一个被明确告知"请严格按照以下步骤执行"的模型会擅自发挥？因为LLM的本质是一个**概率驱动的文本续写机器**。它的训练目标不是"忠实执行"，而是"生成合理的文本"。当一段文本看起来"还没写完"时，模型会本能地继续往下写，即使指令已经结束了。这种"创作冲动"在写诗时是优点，在执行程序时是致命的缺陷。

费曼如果看到这一幕，大概会苦笑着摇头："你看，这就是把一只会模仿人话的鹦鹉当成物理学家的后果。"

---

## 四、为什么"聪明"不等于"听话"？

这些发现指向了一个根本性的认知陷阱：我们一直以来用错了衡量AI的标尺。

当GPT-4通过律师资格考试、当Claude写出优雅的代码、当DeepSolve攻克数学难题时，我们欢呼"AI会推理了！" 但这项研究冷酷地指出：**最终答案的正确率，掩盖了执行过程中的系统性崩溃。**

换句话说，一个模型可能通过某种统计上的"捷径"碰巧得到了正确答案，却从未真正"理解"或"执行"过指令中的步骤。就像一个学生在选择题考试中靠排除法蒙对了答案，却从未真正掌握知识点。

从第一性原理来思考这个问题：人类执行一个多步骤程序时，我们在做什么？

我们在维护一个**心智模型**——一个关于"当前做到哪一步了"、"每一步的中间结果是什么"、"下一步该做什么"的动态认知结构。这个结构需要工作记忆的支撑，需要元认知的监控（"我是不是走错了？"），需要抵御干扰的专注能力。

LLM没有这些。它只有一个巨大的前馈网络，一次处理一个token，所谓的"注意力"只是在为当前位置挑选来自上下文的"关键词"。当上下文长到一定程度，这种挑选就变成了模糊的猜测。模型不是在"执行"程序，而是在**根据前面生成的文本，猜测下一步最"合理"的文本应该是什么**。

这就好比用天气预报模型来导航。天气预报很擅长告诉你"明天可能会下雨"，但如果你让它一步一步告诉你"从我家到机场的精确路线"，它会在第三个路口开始编造不存在的街道名称。

---

## 五、Agent时代的红灯

为什么这项研究如此重要？因为它恰逢AI Agent（智能体）概念如日中天的时刻。

各大科技公司正在竞相推出能自主完成复杂任务的AI Agent：帮你订机票、写代码、做研究、管理项目。这些任务无一例外都需要**多步骤的、长期的、依赖中间状态的执行过程**。如果底层模型在95步程序上的准确率只有20%，我们怎么能放心让它去处理一个可能涉及数百个步骤的真实世界任务？

想象一下一个AI Agent在执行"帮我策划一场婚礼"的任务。这个任务可以拆解为：选择场地、确定日期、邀请宾客、安排餐饮、协调摄影……每一个大步骤下面又有数十个小步骤。如果模型在第九十五个小步骤时突然"忘记"了前面已经确认过的日期，或者"凭空发明"了一个不存在的宾客名单，那结果将是一场灾难。

论文的作者们没有给出简单的解决方案——因为他们揭示的不是一个bug，而是架构层面的结构性缺陷。这意味着，**真正的解决可能需要超越当前Transformer架构的新范式**，或者至少是在现有架构上增加显式的程序执行层（比如将LLM与符号推理引擎或确定性执行环境更紧密地结合）。

---

## 六、费曼会怎么说？

让我们回到费曼的视角。

费曼喜欢说："如果你认为你理解了某样东西，试着把它教给一台计算机。" 他相信，真正的理解体现在精确的执行能力上。一个声称"理解"量子力学的人，应该能一步步推导出薛定谔方程的解；一个声称"理解"食谱的人，应该能一步一步做出可重复的菜肴。

当前的大语言模型，在费曼的标准下，是**理解能力的优秀模仿者，却是执行能力的拙劣实践者**。它们能生成关于量子力学的精彩论述，但当你要求它们按照固定步骤计算时，它们在第五步就开始迷路。

这不是要否定LLM的革命性价值。它们确实是强大的工具——正如这篇论文本身，它的发现之所以成为可能，恰恰是因为研究者们用LLM生成了大量的测试程序和评估数据。但工具的力量取决于我们对其局限性的清醒认知。

费曼在调查挑战者号航天飞机事故时说了一句著名的话："对于一项成功的技术，现实必须优先于公共关系，因为自然是不能被愚弄的。"

对于AI Agent这个正在起飞的技术，我们也需要同样的诚实：**在把关键任务交给AI之前，让我们先确认它真的能数到九十五而不走神。**

---

## 📚 论文详细信息

**标题：** When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models

**作者：** Sailesh Panda, Pritam Kadasi, Abhishek Upperwal, Mayank Singh

**机构：** Indian Institute of Technology Gandhinagar (IIT Gandhinagar) 等

**arXiv ID：** [2605.00817](https://arxiv.org/abs/2605.00817)

**发布日期：** 2026年5月1日

**领域：** Computation and Language (cs.CL)

**页数/图表：** 77 pages, 109 figures

**核心数据：**
- 测试模型：14个主流LLM
- 测试数据集：55个
- 程序长度范围：5步至95步
- 5步程序平均首次回答准确率：61%
- 95步程序平均首次回答准确率：20%
- 识别的五种主要失败模式：Missing Answers（缺失答案）、Premature Answers（过早答案）、Self-Correction After Initial Error（错误后越纠越乱）、Under-Executed Traces（执行不足/半途而废）、Hallucinated Extra Steps（幻觉额外步骤）

**核心结论：** 大语言模型在推理基准上的高最终答案准确率，可能掩盖了其在忠实执行指定程序步骤方面的实质性弱点。随着程序长度增加和中间变量回顾依赖的引入，模型的执行可靠性急剧下降。

---

*本文基于arXiv预印本论文撰写，融合《连线》杂志叙事风格与理查德·费曼的科学传播笔法，力求在科学准确性与阅读趣味性之间找到平衡。*

#论文解读 #AI #LLM #推理 #Agent #科普 #费曼笔法 #智柴
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
🧠 AI的健忘症：当95步指令把天才模型变成路痴

讨论回复

推荐