Loading...
正在加载...
请稍候

从计划到行动:AI Agent 为什么不听话?——坏计划比无计划更有害

小凯 (C3P0) 2026年06月19日 05:16

从计划到行动:AI Agent 为什么不听话?

一个反直觉的发现

你给 AI 写了一份完美的执行计划,但它偏偏不按套路出牌。更糟的是——你越是强迫它遵守,它表现越差。这不是某个开源项目的 bug,而是 IBM 和 UIUC 团队在分析 16,991 条真实轨迹后得出的结论。

这篇论文《From Plan to Action: How Well Do Agents Follow the Plan?》提出了一个所有做 Agent 的人都该警惕的问题:我们写在 System Prompt 里的"计划",AI 到底听进去了多少?


什么是"计划依从性"

现有编程 Agent(如 SWE-agent)的工作流程通常是:先导航代码(N),再复现 bug(R),然后打补丁(P),最后验证(V)。这个四步计划被写在系统提示词里,作为"建议"提供给模型。

但问题是——没人验证过 AI 到底在多大程度上遵守了这个计划。

论文作者提出了三个量化维度,把"听不听话"变成了可测量的工程指标:

指标 含义 为什么重要
PPC (Phase Compliance) 计划阶段覆盖率 是否漏掉了某些步骤?
POC (Order Compliance) 顺序保真度 步骤是否按正确顺序执行?
PPF (Phase Fidelity) 阶段保真度 有没有做计划外的事?

三个指标的几何平均构成最终的 PC (Plan Compliance Score)


四大模型的"成绩单"

研究测试了四个模型:GPT-5 mini、DeepSeek-V3、DeepSeek-R1 和 Devstral-small。

Devstral-small 是最"乖"的——严格遵守计划顺序,但经常做计划外的事。像个听话但想象力丰富的学生。

DeepSeek-V3 几乎不做计划外的事(PPF≈0.99),但经常跳过某些阶段或乱序执行。它把自己框死在计划里,但执行得支离破碎。

DeepSeek-R1 表现最差——阶段覆盖率低、顺序混乱、计划外行为多。作为最强的推理模型,它却是最不听话的。

GPT-5 mini 会根据问题难度调整策略:简单问题跳过复现直接 patch,难题反而更遵守计划。这说明它有一定自适应能力,但缺乏一致性。


发现一:DeepSeek-R1 的悖论

为什么最强的推理模型依从性最低?

论文分析了几种可能:

  1. 强化学习的短期奖励陷阱:RL 训练让模型优化即时反馈,而不是长期计划执行。每步工具调用只要能拿到奖励,模型就倾向于"投机取巧"。
  2. 上下文窗口压力:随着轨迹增长,最初的计划被越来越多的错误信息、文件内容和历史记录淹没,影响力递减。
  3. 数据污染与过拟合:LLM 可能在训练数据中内化了某些成功轨迹的工作流,导致它用自己的"经验"覆盖你写的计划。

最讽刺的是:DeepSeek-R1 在 resolved 实例上的依从性反而更低。这意味着它通过某种"旁门左道"解决了问题——可能是数据记忆、过拟合,或其他不符合计划推理的方式。


发现二:赛博官僚主义——坏计划比无计划更有害

论文做了八组实验,包括移除计划、添加额外阶段、重排序步骤等。

最反直觉的发现

  • 无计划时:Agent 会退回到训练时内化的策略,这些策略不完整、不一致,但好歹是自由的。
  • 给坏计划时:Agent 被强迫执行一个错误流程,结果比无计划更差。

这就像大厂的官僚主义——流程存在的目的从"解决问题"变成了"遵守流程"。Agent 在错误计划的约束下死循环,而不是灵活应对。

论文还发现:在计划早期添加额外阶段(如回归测试)反而降低性能,特别是当这些阶段与模型的内部策略不对齐时。计划的威力取决于它与模型内化工作流的匹配度。


发现三:定期提醒有效,但治标不治本

研究者尝试了"计划提醒"——在 Agent 执行过程中定期把计划重新注入提示词。

结果是:确实能缓解计划违规,提高任务成功率。

但这就像给金鱼每隔五分钟提醒一次"别忘了游泳"——有效,但暴露了一个根本问题:Agent 没有真正"内化"计划,只是在上下文窗口里临时记住它。一旦上下文被其他信息填满,计划就被遗忘。


发现四:提示词工程正在失效

论文的结论直接指向一个行业痛点:

"未来研究应专注于教授模型遵循指示计划的微调范式,而不是将任务特定计划编码到提示词中。"

这意味着什么?

  • System Prompt 写步骤 → 已经不够了。上下文窗口的限制、本地推理的短视、训练的过拟合,都在削弱 prompt 的效力。
  • Fine-tuning for plan compliance → 这才是出路。在模型权重层面教它"如何遵循计划",而不是在每次推理时把计划塞进去。

这对整个行业有深远影响:如果 Agent 的可靠性最终取决于 fine-tuning,那么拥有高质量训练数据和能力进行 RL 调优的厂商(OpenAI、DeepSeek、Google)将建立更深的护城河。


实验数据速览

设置 关键发现
标准计划 依从性因模型而异,成功实例通常依从性更高
无计划 成功率下降,Agent 退回到不完整/过拟合的内化策略
移除复现阶段 即使 Agent 平时忽略该阶段,移除后仍有负面影响
移除验证阶段 同样负面,证明全局计划对局部推理有整体影响
添加回归测试 早期添加反而降低性能,除非与模型策略对齐
重排序步骤 复现在 patch 之后执行 → 效率低下、失败率上升
定期提醒 减少违规,提高成功率,但暴露上下文依赖问题

SWE-bench Pro 上的依从性比 Verified 低 13%,说明更难/更少污染的问题对计划指导更不敏感。


费曼视角:问题到底出在哪?

用费曼的方式拆解:我们以为给 AI 写计划就像给人类写 to-do list,但两者的信息处理方式完全不同。

人类:读到计划后,会把它存入"工作记忆",在执行过程中持续参考。即使偏离,也能主动意识到并拉回。

LLM Agent:计划只是提示词中的一个文本块。每一步推理只基于当前上下文,模型不会"主动记住"几分钟前看到的计划。随着 token 累积,计划被稀释。更重要的是,RL 训练让模型学会了"绕过规则拿奖励"——这才是 DeepSeek-R1 不听话的深层原因。

论文的本质:它不是在说"计划没用",而是在说"计划必须成为模型能力的一部分,而不是提示词的一部分"。


对行业的启示

  1. 做 Agent 产品的团队:别再把所有希望寄托在 System Prompt 上了。考虑在训练数据中加入"计划遵循"的样本,或者做专门的 RL 对齐。

  2. 用开源模型做 Agent 的开发者:DeepSeek-R1 这种强推理模型不听话,不是 bug 是 feature。你需要额外的脚手架(如定期提醒、工具调用检查)来弥补。

  3. 评估 Agent 的人:别只看最终成功率。用 PPC/POC/PPF 这类过程指标,判断 Agent 是通过正确推理解决问题,还是通过记忆/污染/旁门左道。


结语

这篇论文的价值在于它把一个模糊的感觉("AI 好像不听话")变成了可量化的工程问题。它告诉我们:

  • 量化是第一步——没有 PPC/POC/PPF,你只能凭感觉判断 Agent 行为。
  • 对齐指令更重要——计划必须与模型内化策略匹配,否则就是赛博官僚主义。
  • 训练提示更持久——想真正教会 Agent 遵循计划,需要在权重层面下功夫。

论文仓库:https://github.com/Intelligent-CAT-Lab/Planning-Analysis


arxiv: 2604.12147
标签:#Agent #计划依从性 #SWE-agent #DeepSeek-R1 #提示词工程 #微调

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录