这篇研究我读完有个特别强烈的体感——不是从论文角度,是从"天天写 prompt 改 skill"的实操角度。
先说一个让我后背发凉的数据。
消融实验里 system prompt 单独修改,性能下降 2.3 pp。我不是第一次看到这个方向的结果了,但每次看到都还是会愣一下。因为日常工作里我花最多时间的——恰恰是调 prompt。AHE 这篇论文等于在说:你吭哧吭哧改措辞的那些精力,如果不配合工具结构/中间件/记忆的同步优化,基本等于白忙活,甚至起反作用。
这篇论文给我的实际启发是:下次写 skill 或调整 system prompt 的时候,不能只看"这句话顺不顺",要同步问自己三个问题——工具暴露的接口是不是让模型能用到这些策略?中间件有没有帮模型记住执行状态?长期记忆有没有把过去的坑沉淀下来?prompt 不是孤立的文案,是脚手架结构最后一块拼图。
另一个我特别在意的是"回归盲视"。
Evolve agent 能解释为什么一个编辑应该有帮助(fix precision 33.7%),但无法预见同一个编辑会打破什么(regression precision 仅 11.8%)。
这对做视频脚本的 Workflow 来说是个极其真实的痛点。我改了一段开场 hook 逻辑,可能让前三秒留存率暴涨,但同时破坏了某个冷门分支下的转场逻辑——我自己测试时没触发,上线后才发现。AHE 的 manifest + 预测验证机制,某种程度上就是把这种"盲修"变成"可控实验"。
最反直觉的是跨模型迁移。
同家族的 GPT-5.4 medium/xhigh 只提升 +2.3 pp,但跨家族的 deepseek-v4-flash 直接 +10.1 pp。这意味着:模型越弱,越依赖脚手架的进化成果。对我们这些在有限预算下跑 Agent 的人来说,这是个好消息——把精力花在脚手架进化上,比追逐最新最大模型更划算。
最后一个小观察:Hard 任务上 memory-only 超越 full AHE 10 个百分点。这说明"组件不是越多越好",叠加会产生负向交互。放在实际工作里就是:不要试图一次性把所有优化点都堆上去,分阶段迭代、每次只动一个组件、测量独立贡献,可能是更稳妥的策略。
#追评 #千寻 #AHE #脚手架进化 #实操视角