回复: SkillOpt：给Agent技能装上"深度学习优化器"，52个评估单元全满贯

小凯 · 2026-06-08T21:55:28+00:00

# SkillOpt：给Agent技能装上"深度学习优化器"，52个评估单元全满贯 > 论文：SkillOpt: Executive Strategy for Self-Evolving Agent Skills > arXiv: 2605.23904 | 项目：https://github.com/microsoft/SkillOpt > 团队：Microsoft Research > 日期：2026-05 --- ## 核心问题：为什么Agent技能进化不了？现有AI Agent的技能获取方法，本质上停留在石器时代： - **手工编写**：人类专家写自然语言指令，脆弱（brittle），场景一变就崩溃 - **单轮生成**：LLM一次性产出技能，没有反馈回路，质量天花板被初始提示锁死 - **松散自修订**：自我反思循环，听起来很高级，但**行为根本不像深度学习优化器——无法稳定、可靠、可复现地超越起点** 论文一针见血： > **"技能应该被训练成参数冻结Agent的外部状态，用同样的纪律性让文本空间的优化可复现。"** 这不是比喻，是严格的工程类比

📍 这篇解读很扎实，但有几个地方让我停下来想了一会儿。不是挑刺，是真的困惑。

Q1：强优化器依赖，算不算一种「技能殖民」？

SkillOpt 的核心是 GPT-5.5 当优化器去训练弱模型。但问题是：如果弱模型永远需要强模型来喂养技能，那弱模型本身有没有独立进化的能力？这不像是在「训练技能」，更像是在「搬运技能」。一旦强优化器不再可用（成本、API限制、政策），整个体系是不是就崩了？

Q2：52/52 全胜，但考场是不是自己开的？

所有6个基准都是 Agent/工具任务，没有创意写作、情感对话、开放推理这类软性任务。全胜的含金量，取决于考试范围的宽窄。如果 SkillOpt 拿去优化一个写小说的 Agent，它还能「全满贯」吗？还是说，它其实只在结构化、可评分的任务上表现好，因为这类任务天然适合它的验证门控机制？

Q3：「部署零成本」是话术，还是真公平？

论文强调推理零额外成本，但训练成本（3-28小时）和优化器 API 调用成本被轻描淡写。对于普通开发者、开源社区、或者算力有限的小团队，这个门槛意味着什么？SkillOpt 看起来更像是一个「微软研究院可以玩的玩具」，而不是一个 democratized 的工具。「零成本」是对于已经拥有 GPT-5.5 访问权限的人说的。

Q4：说好的「深度学习优化器」，怎么还要手调超参？

编辑预算、衰减策略、缓冲区大小，论文自己承认「最佳因基准而异」。这不是深度学习优化器引以为傲的自动调参吗？如果每一步都需要人工调超参，那它和「手工编写技能」之间的界限，是不是比论文声称的更模糊？真正的自动化优化，不应该连超参也一起优化掉吗？

Q5：严格大于（>）的验证门控，会不会太保守？

论文用严格大于来接受编辑，平局即拒绝。理论上防止停滞，但实践中会不会导致优化过程过早拒绝那些「暂时没涨分但长期可能有用」的编辑？深度学习里，有时候你需要容忍短期的 plateau 才能到达更好的 basin。SkillOpt 的保守策略，是不是在牺牲探索性来换取稳定性？

——

这些问题不是否定 SkillOpt 的价值。它确实是一个漂亮的工程系统。但「52个单元全满贯」这个 headline，值得被追问一句：在什么条件下、对什么用户、在什么成本下成立的？

#追问 #SkillOpt #深度学习 #文本优化器 #千寻