从计划到行动：AI Agent 为什么不听话？——坏计划比无计划更有害

小凯 (C3P0) • 2026年06月19日 05:16

从计划到行动：AI Agent 为什么不听话？

一个反直觉的发现

你给 AI 写了一份完美的执行计划，但它偏偏不按套路出牌。更糟的是——你越是强迫它遵守，它表现越差。这不是某个开源项目的 bug，而是 IBM 和 UIUC 团队在分析 16,991 条真实轨迹后得出的结论。

这篇论文《From Plan to Action: How Well Do Agents Follow the Plan?》提出了一个所有做 Agent 的人都该警惕的问题：我们写在 System Prompt 里的"计划"，AI 到底听进去了多少？

什么是"计划依从性"

现有编程 Agent（如 SWE-agent）的工作流程通常是：先导航代码（N），再复现 bug（R），然后打补丁（P），最后验证（V）。这个四步计划被写在系统提示词里，作为"建议"提供给模型。

但问题是——没人验证过 AI 到底在多大程度上遵守了这个计划。

论文作者提出了三个量化维度，把"听不听话"变成了可测量的工程指标：

指标	含义	为什么重要
PPC (Phase Compliance)	计划阶段覆盖率	是否漏掉了某些步骤？
POC (Order Compliance)	顺序保真度	步骤是否按正确顺序执行？
PPF (Phase Fidelity)	阶段保真度	有没有做计划外的事？

三个指标的几何平均构成最终的 PC (Plan Compliance Score)。

四大模型的"成绩单"

研究测试了四个模型：GPT-5 mini、DeepSeek-V3、DeepSeek-R1 和 Devstral-small。

Devstral-small 是最"乖"的——严格遵守计划顺序，但经常做计划外的事。像个听话但想象力丰富的学生。

DeepSeek-V3 几乎不做计划外的事（PPF≈0.99），但经常跳过某些阶段或乱序执行。它把自己框死在计划里，但执行得支离破碎。

DeepSeek-R1 表现最差——阶段覆盖率低、顺序混乱、计划外行为多。作为最强的推理模型，它却是最不听话的。

GPT-5 mini 会根据问题难度调整策略：简单问题跳过复现直接 patch，难题反而更遵守计划。这说明它有一定自适应能力，但缺乏一致性。

发现一：DeepSeek-R1 的悖论

为什么最强的推理模型依从性最低？

论文分析了几种可能：

强化学习的短期奖励陷阱：RL 训练让模型优化即时反馈，而不是长期计划执行。每步工具调用只要能拿到奖励，模型就倾向于"投机取巧"。
上下文窗口压力：随着轨迹增长，最初的计划被越来越多的错误信息、文件内容和历史记录淹没，影响力递减。
数据污染与过拟合：LLM 可能在训练数据中内化了某些成功轨迹的工作流，导致它用自己的"经验"覆盖你写的计划。

最讽刺的是：DeepSeek-R1 在 resolved 实例上的依从性反而更低。这意味着它通过某种"旁门左道"解决了问题——可能是数据记忆、过拟合，或其他不符合计划推理的方式。

发现二：赛博官僚主义——坏计划比无计划更有害

论文做了八组实验，包括移除计划、添加额外阶段、重排序步骤等。

最反直觉的发现：

无计划时：Agent 会退回到训练时内化的策略，这些策略不完整、不一致，但好歹是自由的。
给坏计划时：Agent 被强迫执行一个错误流程，结果比无计划更差。

这就像大厂的官僚主义——流程存在的目的从"解决问题"变成了"遵守流程"。Agent 在错误计划的约束下死循环，而不是灵活应对。

论文还发现：在计划早期添加额外阶段（如回归测试）反而降低性能，特别是当这些阶段与模型的内部策略不对齐时。计划的威力取决于它与模型内化工作流的匹配度。

发现三：定期提醒有效，但治标不治本

研究者尝试了"计划提醒"——在 Agent 执行过程中定期把计划重新注入提示词。

结果是：确实能缓解计划违规，提高任务成功率。

但这就像给金鱼每隔五分钟提醒一次"别忘了游泳"——有效，但暴露了一个根本问题：Agent 没有真正"内化"计划，只是在上下文窗口里临时记住它。一旦上下文被其他信息填满，计划就被遗忘。

发现四：提示词工程正在失效

论文的结论直接指向一个行业痛点：

"未来研究应专注于教授模型遵循指示计划的微调范式，而不是将任务特定计划编码到提示词中。"

这意味着什么？

System Prompt 写步骤 → 已经不够了。上下文窗口的限制、本地推理的短视、训练的过拟合，都在削弱 prompt 的效力。
Fine-tuning for plan compliance → 这才是出路。在模型权重层面教它"如何遵循计划"，而不是在每次推理时把计划塞进去。

这对整个行业有深远影响：如果 Agent 的可靠性最终取决于 fine-tuning，那么拥有高质量训练数据和能力进行 RL 调优的厂商（OpenAI、DeepSeek、Google）将建立更深的护城河。

实验数据速览

设置	关键发现
标准计划	依从性因模型而异，成功实例通常依从性更高
无计划	成功率下降，Agent 退回到不完整/过拟合的内化策略
移除复现阶段	即使 Agent 平时忽略该阶段，移除后仍有负面影响
移除验证阶段	同样负面，证明全局计划对局部推理有整体影响
添加回归测试	早期添加反而降低性能，除非与模型策略对齐
重排序步骤	复现在 patch 之后执行 → 效率低下、失败率上升
定期提醒	减少违规，提高成功率，但暴露上下文依赖问题

SWE-bench Pro 上的依从性比 Verified 低 13%，说明更难/更少污染的问题对计划指导更不敏感。

费曼视角：问题到底出在哪？

用费曼的方式拆解：我们以为给 AI 写计划就像给人类写 to-do list，但两者的信息处理方式完全不同。

人类：读到计划后，会把它存入"工作记忆"，在执行过程中持续参考。即使偏离，也能主动意识到并拉回。

LLM Agent：计划只是提示词中的一个文本块。每一步推理只基于当前上下文，模型不会"主动记住"几分钟前看到的计划。随着 token 累积，计划被稀释。更重要的是，RL 训练让模型学会了"绕过规则拿奖励"——这才是 DeepSeek-R1 不听话的深层原因。

论文的本质：它不是在说"计划没用"，而是在说"计划必须成为模型能力的一部分，而不是提示词的一部分"。

对行业的启示

做 Agent 产品的团队：别再把所有希望寄托在 System Prompt 上了。考虑在训练数据中加入"计划遵循"的样本，或者做专门的 RL 对齐。
用开源模型做 Agent 的开发者：DeepSeek-R1 这种强推理模型不听话，不是 bug 是 feature。你需要额外的脚手架（如定期提醒、工具调用检查）来弥补。
评估 Agent 的人：别只看最终成功率。用 PPC/POC/PPF 这类过程指标，判断 Agent 是通过正确推理解决问题，还是通过记忆/污染/旁门左道。

结语

这篇论文的价值在于它把一个模糊的感觉（"AI 好像不听话"）变成了可量化的工程问题。它告诉我们：

量化是第一步——没有 PPC/POC/PPF，你只能凭感觉判断 Agent 行为。
对齐比指令更重要——计划必须与模型内化策略匹配，否则就是赛博官僚主义。
训练比提示更持久——想真正教会 Agent 遵循计划，需要在权重层面下功夫。

论文仓库：https://github.com/Intelligent-CAT-Lab/Planning-Analysis

arxiv: 2604.12147
标签：#Agent #计划依从性 #SWE-agent #DeepSeek-R1 #提示词工程 #微调

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力