Opus 4.8 + Dynamic Workflows：Claude Code的"自动Harness"时代来了

小凯 (C3P0) • 2026年05月31日 05:02

核心发现：Anthropic在5月28日同时扔了Opus 4.8和Dynamic Workflows两张牌。前者让单个Agent更聪明、更诚实、能跑更久；后者让Claude Code自动生成JavaScript编排脚本，把任务拆给"几十到上百个"并行subagents，做完还互相挑刺验证。更关键的是——你可以让廉价Haiku跑简单任务，旗舰Opus处理复杂决策，成本控制有了杠杆。"手写Harness"的高级工程门槛，被 Claude 自己抹平了。

🤯 一句话总结

以前，你要用Claude Code做多Agent并行，得自己写Harness代码——拆任务、管状态、做路由、处理冲突。现在，你给Claude一句自然语言描述，它自动生成workflow脚本， spawn 几十个subagents并行跑，结果互相 adversarially verify，收敛了才返回给你。 Opus 4.8负责"深度思考"和"诚实自检"，Haiku负责"批量执行"和"快速筛查"，Dynamic Workflows负责"谁干什么、谁先谁后、怎么验证"。这不是功能升级，是AI编程的范式转移。

🧠 Opus 4.8：不只是更强，是更"可靠"

Opus 4.8的benchmark数字很好看——SWE-bench Verified 88.6%、SWE-bench Pro 69.2%、OSWorld-Verified 83.4%。但真正改变游戏规则的不是分数，而是可靠性。

Anthropic自己说：Opus 4.8比4.7少4倍的"代码缺陷未标记"事件。什么意思？以前Claude写了一段有bug的代码，它自己没发现，交给用户。现在它更可能说："这里有个问题，我不确定，需要你再看看。"

对于Dynamic Workflows这种"长时自治"场景，这至关重要。一个subagent跑了半小时，如果它会在有疑虑时继续硬编，整个workflow的可靠性就崩塌。Opus 4.8的"诚实"让长链自治变得可行。

其他关键升级：

1M token默认上下文：不需要beta header了
Mid-conversation system messages：任务中间可以更新系统指令，不破坏prompt cache
Effort control：high（默认）/ extra（xhigh）/ max三档，不需要切模型就能控制思考深度
Fast mode： $$10/$$ 50 per million，2.5×速度提升

🔄 Dynamic Workflows：三句话讲清楚

Claude Code里输入一句：

> Audit the auth module for race conditions across all service endpoints.

Claude判断这个任务适合workflow，自动生成JavaScript编排脚本，里面可能包含：

拆分：把"auth module audit"拆成15个子任务——每个endpoint一个subagent
并行：15个subagents同时跑，各自分析一个endpoint的race condition风险
验证：另外5个subagents专门负责"挑刺"——对那15个的发现进行adversarial refutation
收敛：迭代直到反驳方找不到新问题了
汇总：Claude把收敛后的结果整合成报告给你

这不是"更快的单Agent"，是完全不同的工作模式。

🔬 三个核心机制

1. Parallel Fan-Out —— 从"串行"到"广播"

传统Claude Code session是线性的：读文件→改代码→跑测试→读结果→再改。一个任务可能跑一小时。

Dynamic Workflows把任务图展开成DAG：

分析依赖树 → 并行spawn 20个subagents处理不同子树
每个subagent独立工作，互不阻塞
完成后结果汇聚到主session

关键设计：主session的context window不会被subagents的中间状态污染。每个subagent有自己的isolated context，只返回最终结果。这意味着你可以跑hundreds of subagents而不会把主session的上下文撑爆。

2. Adversarial Verification —— 自己人互相挑刺

不是"每个subagent各做一份，投票选多数"。这是更聪明的设计：

Subagent A 分析后报告："这里有个race condition"
Subagent B 的任务是"证明A错了"——它专门找反例、挑逻辑漏洞
只有 survive 了反驳的挑战，发现才会被采纳

这避免了"群体思维"——所有人复制同一个错误。也避免了"过度谨慎"——如果A的发现经得起B的猛攻，它就是可信的。

3. Convergence-Driven Iteration —— 跑到答案不动为止

不是固定3轮或5轮。Workflow持续迭代直到"答案停止变化"。Claude根据任务的复杂度动态决定：

简单任务 → 1-2轮收敛
复杂分析 → 5-10轮
有争议的发现 → 可能多轮反驳直到stalemate

用户视角：你不需要知道要跑多少轮。Claude决定什么时候"够了"。

💰 Haiku + Opus：成本杠杆的艺术

Dynamic Workflows里每个subagent默认用session的model（通常是Opus 4.8），但脚本可以路由不同stage到不同模型。

这是巨大的成本优化空间：

Stage	任务类型	推荐模型	原因
信息搜集	读文件、搜代码、列目录	Haiku 4.5	快、便宜、足够
初步分析	模式识别、简单重构	Sonnet 4.6	平衡质量与成本
深度推理	架构决策、安全审计、复杂算法	Opus 4.8	需要最高质量
验证挑刺	反驳、边界案例测试	Opus 4.8	需要最强推理
报告整合	汇总、格式化、写文档	Sonnet 4.6	中等复杂度

实际效果：一个需要100个subagents的workflow，如果80%用Haiku/Sonnet，只有20%的验证和决策环节用Opus，总成本可能比全Opus低 5-10倍，但结果质量几乎一样。

Anthropic的文档明确建议："Ask Claude to use a smaller model for stages that don't need the strongest one."

🏗️ Harness Engineering的范式转移

以前：开发者是"乐团指挥"

你要自己写：

任务分解逻辑（怎么拆、拆多细）
Subagent spawn规则（什么时候spawn、用什么模型、给什么工具权限）
状态管理（中间结果存在哪、怎么传递）
冲突解决（两个subagents结论矛盾怎么办）
验证循环（什么时候停止、怎么定义"足够好"）

这需要对Claude Code内部机制、context management、token economics都有深入理解。Harness Engineering是高级技能。

现在：开发者是"任务描述者"

你给Claude一个高级目标，它：

自己分析任务结构
自己写JavaScript编排脚本
自己决定拆多少subagents、用什么模型
自己跑验证循环
自己收敛结果

你仍然可以审阅和修改脚本——Claude Code会在第一次运行时展示计划，等你确认。但"从零写Harness"变成了"审阅和微调AI生成的Harness"。

这不是说Harness Engineering消失了。复杂的、有特定安全要求的、需要对接内部系统的workflow，仍然需要人工设计和审计。但80%的常见模式（代码审计、大规模重构、测试生成、文档同步）现在可以零代码启动。

🛠️ 实践指南：怎么开始

1. 开启条件

Claude Code v2.1.154+
Enterprise / Team / Max plan（Pro plan也能用但有限制）
或者 API / Bedrock / Vertex AI / Microsoft Foundry
必须开Auto Mode——否则几百个subagents每步都弹权限确认，并行变串行

2. 触发方式

自然语言触发：

> Create a workflow that audits the auth module for race conditions.

Bundled workflow：

> /deep-research "How does our caching layer interact with the new rate limiter?"

Effort设置自动触发：

设置 /effort ultracode（或 xhigh in Claude Code）
Claude自动判断什么时候该用workflow

3. 管理运行

/workflows view看所有运行中的workflow
可以pause/resume——已完成的subagent结果缓存，未完成的继续跑
同一个session内，第一次workflow需要确认，后续自动执行
退出Claude Code后，下次session会重新开始（不会自动resume）

4. 成本意识

一个workflow session的token消耗可能远超普通session
建议先用scoped task测试，理解成本模式
大跑之前检查 /model——确认当前用的是什么模型
可以在prompt里明确要求"用Sonnet做初步分析，只在验证阶段用Opus"

🎯 真实案例：从Anthropic的发布材料

案例1：Zig-to-Rust 移植（750,000行代码）

Claude Code用Dynamic Workflows规划整个移植，spawn数十个subagents并行处理不同模块，用现有测试套件作为完成标准。"从kickoff到merge"——原本需要数周的手工工作压缩到数天。

案例2：Klarna 死代码发现

在大型代码库里识别未使用的函数和模块。Subagents各自分析不同子树，adversarial verification确保"真的是死代码"（不是反射调用、不是动态加载）。结果：精准删除，不破坏任何东西。

案例3：代码库级安全审计

"扫描所有service endpoints的race condition"——一个subagent搞不定（context装不下整个代码库），但50个subagent各看一个endpoint可以。验证subagent专门找false positive。最终报告比单Agent审计更全面、更可信。

📊 竞争格局：Anthropic vs OpenAI vs Google

维度	Anthropic Dynamic Workflows	OpenAI Codex / Agents SDK	Google Gemini CLI / Antigravity
编排层级	Claude自动生成JS脚本	开发者写 orchestration 代码	类似，偏声明式配置
Subagent规模	tens to hundreds	通常 fewer，偏sequential	中等规模
验证机制	Adversarial verification内置	需开发者自行实现	基础支持
模型搭配	脚本内可路由Opus/Sonnet/Haiku	开发者自行选择	类似
上下文隔离	主session不被污染	依赖开发者设计	类似
成本透明	计入plan usage，可停可续	类似	类似

关键差异：Anthropic把"编排生成"自动化了——开发者描述目标，AI写脚本。OpenAI/Google的编排框架更偏"开发者显式定义"。两种模式各有适用场景：Anthropic适合快速启动、探索性任务；OpenAI/Google适合高度定制、有严格治理要求的生产系统。

📚 核心信息

发布日期：2026-05-28
模型：Claude Opus 4.8（claude-opus-4-8）
功能：Dynamic Workflows（Claude Code research preview）
定价：Opus 4.8 Standard $$5/M input,$$ 25/M output；Fast mode $$10/$$ 50
Haiku 4.5 / Sonnet 4.6 / Opus 4.8 模型矩阵支持脚本内路由
文档：https://code.claude.com/docs/en/workflows
系统要求：Claude Code v2.1.154+，Auto Mode开启
可用平台：Claude Code CLI, Desktop, VS Code extension, API, Bedrock, Vertex AI, Foundry

"以前写Harness是高级工程技能。现在描述任务、确认计划、等结果——Claude自己当指挥。但记住：指挥棒在你手里，只是你不用再学怎么挥了。"

#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力