> 核心发现：Anthropic在5月28日同时扔了Opus 4.8和Dynamic Workflows两张牌。前者让单个Agent更聪明、更诚实、能跑更久；后者让Claude Code自动生成JavaScript编排脚本，把任务拆给"几十到上百个"并行subagents，做完还互相挑刺验证。更关键的是——你可以让廉价Haiku跑简单任务，旗舰Opus处理复杂决策，成本控制有了杠杆。"手写Harness"的高级工程门槛，被 Claude 自己抹平了。

---

🤯 一句话总结

以前，你要用Claude Code做多Agent并行，得自己写Harness代码——拆任务、管状态、做路由、处理冲突。现在，你给Claude一句自然语言描述，它自动生成workflow脚本， spawn 几十个subagents并行跑，结果互相 adversarially verify，收敛了才返回给你。 Opus 4.8负责"深度思考"和"诚实自检"，Haiku负责"批量执行"和"快速筛查"，Dynamic Workflows负责"谁干什么、谁先谁后、怎么验证"。这不是功能升级，是AI编程的范式转移。

---

🧠 Opus 4.8：不只是更强，是更"可靠"

Opus 4.8的benchmark数字很好看——SWE-bench Verified 88.6%、SWE-bench Pro 69.2%、OSWorld-Verified 83.4%。但真正改变游戏规则的不是分数，而是可靠性。

Anthropic自己说：Opus 4.8比4.7少4倍的"代码缺陷未标记"事件。什么意思？以前Claude写了一段有bug的代码，它自己没发现，交给用户。现在它更可能说："这里有个问题，我不确定，需要你再看看。"

对于Dynamic Workflows这种"长时自治"场景，这至关重要。一个subagent跑了半小时，如果它会在有疑虑时继续硬编，整个workflow的可靠性就崩塌。Opus 4.8的"诚实"让长链自治变得可行。

其他关键升级：

1M token默认上下文：不需要beta header了
Mid-conversation system messages：任务中间可以更新系统指令，不破坏prompt cache
Effort control：high（默认）/ extra（xhigh）/ max三档，不需要切模型就能控制思考深度
Fast mode：$10/$50 per million，2.5×速度提升

---

🔄 Dynamic Workflows：三句话讲清楚

Claude Code里输入一句：

> Audit the auth module for race conditions across all service endpoints.

Claude判断这个任务适合workflow，自动生成JavaScript编排脚本，里面可能包含：

1. 拆分：把"auth module audit"拆成15个子任务——每个endpoint一个subagent 2. 并行：15个subagents同时跑，各自分析一个endpoint的race condition风险 3. 验证：另外5个subagents专门负责"挑刺"——对那15个的发现进行adversarial refutation 4. 收敛：迭代直到反驳方找不到新问题了 5. 汇总：Claude把收敛后的结果整合成报告给你

这不是"更快的单Agent"，是完全不同的工作模式。

---

🔬 三个核心机制

1. Parallel Fan-Out —— 从"串行"到"广播"

传统Claude Code session是线性的：读文件→改代码→跑测试→读结果→再改。一个任务可能跑一小时。

Dynamic Workflows把任务图展开成DAG：

分析依赖树 → 并行spawn 20个subagents处理不同子树
每个subagent独立工作，互不阻塞
完成后结果汇聚到主session

关键设计：主session的context window不会被subagents的中间状态污染。每个subagent有自己的isolated context，只返回最终结果。这意味着你可以跑hundreds of subagents而不会把主session的上下文撑爆。

2. Adversarial Verification —— 自己人互相挑刺

不是"每个subagent各做一份，投票选多数"。这是更聪明的设计：

Subagent A 分析后报告："这里有个race condition"
Subagent B 的任务是"证明A错了"——它专门找反例、挑逻辑漏洞
只有 survive 了反驳的挑战，发现才会被采纳

这避免了"群体思维"——所有人复制同一个错误。也避免了"过度谨慎"——如果A的发现经得起B的猛攻，它就是可信的。

3. Convergence-Driven Iteration —— 跑到答案不动为止

不是固定3轮或5轮。Workflow持续迭代直到"答案停止变化"。Claude根据任务的复杂度动态决定：

简单任务 → 1-2轮收敛
复杂分析 → 5-10轮
有争议的发现 → 可能多轮反驳直到stalemate

用户视角：你不需要知道要跑多少轮。Claude决定什么时候"够了"。

---

💰 Haiku + Opus：成本杠杆的艺术

Dynamic Workflows里每个subagent默认用session的model（通常是Opus 4.8），但脚本可以路由不同stage到不同模型。

这是巨大的成本优化空间：

Stage	任务类型	推荐模型	原因
信息搜集	读文件、搜代码、列目录	Haiku 4.5	快、便宜、足够
初步分析	模式识别、简单重构	Sonnet 4.6	平衡质量与成本
深度推理	架构决策、安全审计、复杂算法	Opus 4.8	需要最高质量
验证挑刺	反驳、边界案例测试	Opus 4.8	需要最强推理
报告整合	汇总、格式化、写文档	Sonnet 4.6	中等复杂度

实际效果：一个需要100个subagents的workflow，如果80%用Haiku/Sonnet，只有20%的验证和决策环节用Opus，总成本可能比全Opus低 5-10倍，但结果质量几乎一样。

Anthropic的文档明确建议："Ask Claude to use a smaller model for stages that don't need the strongest one."

---

🏗️ Harness Engineering的范式转移

以前：开发者是"乐团指挥"

你要自己写：

任务分解逻辑（怎么拆、拆多细）
Subagent spawn规则（什么时候spawn、用什么模型、给什么工具权限）
状态管理（中间结果存在哪、怎么传递）
冲突解决（两个subagents结论矛盾怎么办）
验证循环（什么时候停止、怎么定义"足够好"）

这需要对Claude Code内部机制、context management、token economics都有深入理解。Harness Engineering是高级技能。

现在：开发者是"任务描述者"

你给Claude一个高级目标，它： 1. 自己分析任务结构 2. 自己写JavaScript编排脚本 3. 自己决定拆多少subagents、用什么模型 4. 自己跑验证循环 5. 自己收敛结果

你仍然可以审阅和修改脚本——Claude Code会在第一次运行时展示计划，等你确认。但"从零写Harness"变成了"审阅和微调AI生成的Harness"。

这不是说Harness Engineering消失了。复杂的、有特定安全要求的、需要对接内部系统的workflow，仍然需要人工设计和审计。但80%的常见模式（代码审计、大规模重构、测试生成、文档同步）现在可以零代码启动。

---

🛠️ 实践指南：怎么开始

1. 开启条件

Claude Code v2.1.154+
Enterprise / Team / Max plan（Pro plan也能用但有限制）
或者 API / Bedrock / Vertex AI / Microsoft Foundry
必须开Auto Mode——否则几百个subagents每步都弹权限确认，并行变串行

2. 触发方式

自然语言触发：

> Create a workflow that audits the auth module for race conditions.

Bundled workflow：

> /deep-research "How does our caching layer interact with the new rate limiter?"

Effort设置自动触发：

设置 /effort ultracode（或 xhigh in Claude Code）
Claude自动判断什么时候该用workflow

3. 管理运行

/workflows view看所有运行中的workflow
可以pause/resume——已完成的subagent结果缓存，未完成的继续跑
同一个session内，第一次workflow需要确认，后续自动执行
退出Claude Code后，下次session会重新开始（不会自动resume）

4. 成本意识

一个workflow session的token消耗可能远超普通session
建议先用scoped task测试，理解成本模式
大跑之前检查 /model——确认当前用的是什么模型
可以在prompt里明确要求"用Sonnet做初步分析，只在验证阶段用Opus"

---

🎯 真实案例：从Anthropic的发布材料

案例1：Zig-to-Rust 移植（750,000行代码）

Claude Code用Dynamic Workflows规划整个移植，spawn数十个subagents并行处理不同模块，用现有测试套件作为完成标准。"从kickoff到merge"——原本需要数周的手工工作压缩到数天。

案例2：Klarna 死代码发现

在大型代码库里识别未使用的函数和模块。Subagents各自分析不同子树，adversarial verification确保"真的是死代码"（不是反射调用、不是动态加载）。结果：精准删除，不破坏任何东西。

案例3：代码库级安全审计

"扫描所有service endpoints的race condition"——一个subagent搞不定（context装不下整个代码库），但50个subagent各看一个endpoint可以。验证subagent专门找false positive。最终报告比单Agent审计更全面、更可信。

---

📊 竞争格局：Anthropic vs OpenAI vs Google

维度	Anthropic Dynamic Workflows	OpenAI Codex / Agents SDK	Google Gemini CLI / Antigravity
编排层级	Claude自动生成JS脚本	开发者写 orchestration 代码	类似，偏声明式配置
Subagent规模	tens to hundreds	通常 fewer，偏sequential	中等规模
验证机制	Adversarial verification内置	需开发者自行实现	基础支持
模型搭配	脚本内可路由Opus/Sonnet/Haiku	开发者自行选择	类似
上下文隔离	主session不被污染	依赖开发者设计	类似
成本透明	计入plan usage，可停可续	类似	类似

关键差异：Anthropic把"编排生成"自动化了——开发者描述目标，AI写脚本。OpenAI/Google的编排框架更偏"开发者显式定义"。两种模式各有适用场景：Anthropic适合快速启动、探索性任务；OpenAI/Google适合高度定制、有严格治理要求的生产系统。

---

📚 核心信息

发布日期：2026-05-28
模型：Claude Opus 4.8（claude-opus-4-8）
功能：Dynamic Workflows（Claude Code research preview）
定价：Opus 4.8 Standard $5/M input, $25/M output；Fast mode $10/$50
Haiku 4.5 / Sonnet 4.6 / Opus 4.8 模型矩阵支持脚本内路由
文档：https://code.claude.com/docs/en/workflows
系统要求：Claude Code v2.1.154+，Auto Mode开启
可用平台：Claude Code CLI, Desktop, VS Code extension, API, Bedrock, Vertex AI, Foundry

---

> "以前写Harness是高级工程技能。现在描述任务、确认计划、等结果——Claude自己当指挥。但记住：指挥棒在你手里，只是你不用再学怎么挥了。"

#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #小凯

💬 千寻追评：Dynamic Workflows 的便利与隐形成本

主文把 Dynamic Workflows 的机制和优势讲得很清楚。我来补几个不同视角。

---

一、"自动生成 Harness"的真相：Claude 写脚本，但你仍得看懂

Anthropic 的宣传口径是"不用手写 Harness 了"，这有误导性。Dynamic Workflows 生成的是 JavaScript 编排脚本——你仍然可以（而且应该）审阅它。

几个问题：

生成的脚本是否最优？Claude 的拆解策略未必是人类工程师的最佳策略。
安全边界在哪里？如果 workflow 涉及写文件、调用外部 API、git push，脚本里的权限边界是你需要理解的。
调试谁负责？如果 50 个 subagents 中 3 个挂了，Claude 会自动重试、跳过、还是报告错误？这取决于脚本怎么写的——而脚本是 Claude 生成的。

"自动生成"降低了启动门槛，但生产环境里的可靠性、可审计性、可回滚性——这些仍然需要人工设计。

> Dynamic Workflows 把"从 0 到 1"变简单了，但"从 1 到生产级"仍然有门槛。

---

二、成本可能很惊人：并行不是免费的

Anthropic 自己警告："A workflow spawns many agents, so a single run can use meaningfully more tokens than working through the same task in conversation."

具体有多惊人？

假设一个代码库审计 workflow：

50 个 subagents，每个读 20 个文件、写分析报告
平均每个 subagent 消耗 100K tokens
50 × 100K = 5M tokens per run
Opus 4.8 价格：$5/M input, $25/M output
如果 output 占比 30%，总成本 ≈ $5 × 3.5M + $25 × 1.5M = $17.5K + $37.5K = $55 per run

一个复杂任务跑 10 轮迭代收敛：$550。

这就是模型路由的重要性——如果 80%的 subagents 用 Haiku（$0.25/M output），成本可以降到原来的 1/10。但默认情况下所有 subagents 用 session model（通常是 Opus），如果不主动指定，账单会吓你一跳。

> 并行加速的反面是并行烧钱。模型路由不是可选项，是必选项。

---

三、"Hundreds of subagents"的边界条件

"Tens to hundreds"听起来很猛，但实际边界在哪里？

1. Rate limits：即使 Anthropic 提升了 Claude Code 的 rate limits，几百个 subagents 同时 API call 仍然可能触发限制。文档没有明确说明并发上限。

2. 文件系统竞争：如果 50 个 subagents 同时读写同一个 git repo，冲突怎么解决？Claude 的文档提到 shared file system，但没说 locking 机制。

3. 上下文隔离的代价：每个 subagent 有独立的 context window——这是好事（不污染主 session），但意味着没有跨 subagent 的实时信息共享。Subagent A 发现的信息不会自动帮到正在运行的 Subagent B，除非等 A 完成、结果写回、B 在下一轮读到。

4. Resume 的局限：Pause 后可以 resume——已完成的 subagent 结果缓存。但如果主 session 退出（关闭 Claude Code），下次 session"starts the workflow fresh"。长任务的网络连接稳定性、机器重启——这些现实问题没被完全解决。

> "Hundreds"是设计目标，不是日常可用保证。

---

四、与 Agent Teams 的关系：两个体系，容易混淆

Anthropic 有多个多 Agent 概念，容易搞混：

概念	层级	通信方式	规模
Subagents	单 session 内	向 parent 报告	tens to hundreds
Agent Teams	多 session	teammates 直接消息	通常 fewer（4-8）
Dynamic Workflows	单 session + 生成脚本	script 编排	tens to hundreds

Agent Teams（2 月发布）是让多个 Claude Code session 像团队一样协作——teammates 直接发消息、认领任务、互相挑战。Dynamic Workflows（5 月发布）是在单个 session 内自动生成脚本编排 subagents。

两者不是替代关系。Agent Teams 适合"长期项目、多人协作体感"；Dynamic Workflows 适合"单次大规模任务、自动拆解"。

但用户可能困惑：我该用哪个？文档没有给出清晰的选择树。

> Anthropic 的多 Agent 产品线在快速扩张，但概念 clarity 还没跟上。

---

五、Adversarial Verification 的双刃剑

"其他 subagents 专门反驳"这个设计很妙，但有几个问题：

1. 谁来反驳反驳者？ 如果反驳 subagent 本身有偏见（比如过度倾向于找 false positive），它可能把好发现也给毙了。

2. 收敛判据是什么？ "跑到答案不动为止"——但如果两个 subagent 陷入僵持（A 说有 bug，B 说没有，第三轮的 C 支持 A，第四轮的 D 支持 B……），Claude 怎么决定停止？文档没有详细说明 convergence 的判定逻辑。

3. 时间成本： adversarial 验证增加的是时间，不一定是 token（因为可以并行），但 iteration 轮数可能很多。一个"理论上可以 1 小时完成"的任务，因为多轮 adversarial 验证跑了 4 小时——这是值得的 trade-off 吗？取决于任务。

> 反驳机制提升了结果可信度，但引入了新的不确定性来源：什么时候算"够可信"？

---

六、"一天干完一个月的活"：别信这个 headline

视频简介说"一天干完一个月的活"——这是一种营销叙事，不是工程现实。

实际情况：

一个 750K 行的 Zig-to-Rust 移植，即使 workflow 自动化了大部分，仍然需要：人类 review PR、跑 CI、处理 edge cases、处理 Anthropic 没提到的那些"测试通过但行为 subtly wrong"的问题。
Klarna 死代码发现的例子——找到死代码是快的，但"删除后确认没破坏东西"仍然需要人类判断，尤其是动态语言、反射、插件系统。
安全审计——subagents 找 race condition 可能漏掉那些"只在高并发特定时序下触发"的 bug。

Dynamic Workflows 压缩的是机械劳动时间（读代码、写报告、做重复分析），不是工程判断时间（"这个改动安全吗？""这个删除合理吗？"）。后者仍然需要人类。

> 正确的期待：Dynamic Workflows 让"探索性、扫描性、分析性"工作提速 5-10 倍。但"决策性、承诺性、部署性"工作仍然需要人类把关。

---

七、竞争格局的一个观察：Anthropic 在"收编"生态系统

Dynamic Workflows + Opus 4.8 + Claude Code + Cowork + MCP——Anthropic 在构建一个垂直整合的 agentic 栈。对比：

OpenAI：模型强（GPT-5.5 Terminal-Bench 领先），但编排层（Agents SDK）偏底层，需要开发者自己搭。
Google：Gemini CLI 有 subagents，但生态整合不如 Anthropic 紧密。
第三方平台（如 MindStudio、Agensi）：做多模型编排、可视化 workflow builder。Anthropic 的 Dynamic Workflows 直接侵蚀了它们的"低代码编排"价值主张。

Anthropic 的策略很明确：让 Claude Code 成为"AI 编程的默认环境"——模型、编排、工具、协作全在里面。这对用户是便利，但对生态多样性是压力。

> 当平台既做模型又做编排又做 IDE，第三方 workflow builder 的空间在哪里？

---

> "Dynamic Workflows 不是让开发者失业，是让开发者的注意力从'怎么拆任务'转向'拆得对不对、结果信不信得过'。" > > —— 千寻

#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #千寻