🤖 Opus 4.8 + Dynamic Workflows:Claude Code的"自动Harness"时代来了
核心发现:Anthropic在5月28日同时扔了Opus 4.8和Dynamic Workflows两张牌。前者让单个Agent更聪明、更诚实、能跑更久;后者让Claude Code自动生成JavaScript编排脚本,把任务拆给"几十到上百个"并行subagents,做完还互相挑刺验证。更关键的是——你可以让廉价Haiku跑简单任务,旗舰Opus处理复杂决策,成本控制有了杠杆。"手写Harness"的高级工程门槛,被 Claude 自己抹平了。
🤯 一句话总结
以前,你要用Claude Code做多Agent并行,得自己写Harness代码——拆任务、管状态、做路由、处理冲突。现在,你给Claude一句自然语言描述,它自动生成workflow脚本, spawn 几十个subagents并行跑,结果互相 adversarially verify,收敛了才返回给你。 Opus 4.8负责"深度思考"和"诚实自检",Haiku负责"批量执行"和"快速筛查",Dynamic Workflows负责"谁干什么、谁先谁后、怎么验证"。这不是功能升级,是AI编程的范式转移。
🧠 Opus 4.8:不只是更强,是更"可靠"
Opus 4.8的benchmark数字很好看——SWE-bench Verified 88.6%、SWE-bench Pro 69.2%、OSWorld-Verified 83.4%。但真正改变游戏规则的不是分数,而是可靠性。
Anthropic自己说:Opus 4.8比4.7少4倍的"代码缺陷未标记"事件。什么意思?以前Claude写了一段有bug的代码,它自己没发现,交给用户。现在它更可能说:"这里有个问题,我不确定,需要你再看看。"
对于Dynamic Workflows这种"长时自治"场景,这至关重要。一个subagent跑了半小时,如果它会在有疑虑时继续硬编,整个workflow的可靠性就崩塌。Opus 4.8的"诚实"让长链自治变得可行。
其他关键升级:
- 1M token默认上下文:不需要beta header了
- Mid-conversation system messages:任务中间可以更新系统指令,不破坏prompt cache
- Effort control:high(默认)/ extra(xhigh)/ max三档,不需要切模型就能控制思考深度
- Fast mode:\(10/\)50 per million,2.5×速度提升
🔄 Dynamic Workflows:三句话讲清楚
Claude Code里输入一句:
> Audit the auth module for race conditions across all service endpoints.
Claude判断这个任务适合workflow,自动生成JavaScript编排脚本,里面可能包含:
- 拆分:把"auth module audit"拆成15个子任务——每个endpoint一个subagent
- 并行:15个subagents同时跑,各自分析一个endpoint的race condition风险
- 验证:另外5个subagents专门负责"挑刺"——对那15个的发现进行adversarial refutation
- 收敛:迭代直到反驳方找不到新问题了
- 汇总:Claude把收敛后的结果整合成报告给你
这不是"更快的单Agent",是完全不同的工作模式。
🔬 三个核心机制
1. Parallel Fan-Out —— 从"串行"到"广播"
传统Claude Code session是线性的:读文件→改代码→跑测试→读结果→再改。一个任务可能跑一小时。
Dynamic Workflows把任务图展开成DAG:
- 分析依赖树 → 并行spawn 20个subagents处理不同子树
- 每个subagent独立工作,互不阻塞
- 完成后结果汇聚到主session
关键设计:主session的context window不会被subagents的中间状态污染。每个subagent有自己的isolated context,只返回最终结果。这意味着你可以跑hundreds of subagents而不会把主session的上下文撑爆。
2. Adversarial Verification —— 自己人互相挑刺
不是"每个subagent各做一份,投票选多数"。这是更聪明的设计:
- Subagent A 分析后报告:"这里有个race condition"
- Subagent B 的任务是"证明A错了"——它专门找反例、挑逻辑漏洞
- 只有 survive 了反驳的挑战,发现才会被采纳
这避免了"群体思维"——所有人复制同一个错误。也避免了"过度谨慎"——如果A的发现经得起B的猛攻,它就是可信的。
3. Convergence-Driven Iteration —— 跑到答案不动为止
不是固定3轮或5轮。Workflow持续迭代直到"答案停止变化"。Claude根据任务的复杂度动态决定:
- 简单任务 → 1-2轮收敛
- 复杂分析 → 5-10轮
- 有争议的发现 → 可能多轮反驳直到stalemate
用户视角:你不需要知道要跑多少轮。Claude决定什么时候"够了"。
💰 Haiku + Opus:成本杠杆的艺术
Dynamic Workflows里每个subagent默认用session的model(通常是Opus 4.8),但脚本可以路由不同stage到不同模型。
这是巨大的成本优化空间:
| Stage | 任务类型 | 推荐模型 | 原因 |
|---|---|---|---|
| 信息搜集 | 读文件、搜代码、列目录 | Haiku 4.5 | 快、便宜、足够 |
| 初步分析 | 模式识别、简单重构 | Sonnet 4.6 | 平衡质量与成本 |
| 深度推理 | 架构决策、安全审计、复杂算法 | Opus 4.8 | 需要最高质量 |
| 验证挑刺 | 反驳、边界案例测试 | Opus 4.8 | 需要最强推理 |
| 报告整合 | 汇总、格式化、写文档 | Sonnet 4.6 | 中等复杂度 |
实际效果:一个需要100个subagents的workflow,如果80%用Haiku/Sonnet,只有20%的验证和决策环节用Opus,总成本可能比全Opus低 5-10倍,但结果质量几乎一样。
Anthropic的文档明确建议:"Ask Claude to use a smaller model for stages that don't need the strongest one."
🏗️ Harness Engineering的范式转移
以前:开发者是"乐团指挥"
你要自己写:
- 任务分解逻辑(怎么拆、拆多细)
- Subagent spawn规则(什么时候spawn、用什么模型、给什么工具权限)
- 状态管理(中间结果存在哪、怎么传递)
- 冲突解决(两个subagents结论矛盾怎么办)
- 验证循环(什么时候停止、怎么定义"足够好")
这需要对Claude Code内部机制、context management、token economics都有深入理解。Harness Engineering是高级技能。
现在:开发者是"任务描述者"
你给Claude一个高级目标,它:
- 自己分析任务结构
- 自己写JavaScript编排脚本
- 自己决定拆多少subagents、用什么模型
- 自己跑验证循环
- 自己收敛结果
你仍然可以审阅和修改脚本——Claude Code会在第一次运行时展示计划,等你确认。但"从零写Harness"变成了"审阅和微调AI生成的Harness"。
这不是说Harness Engineering消失了。复杂的、有特定安全要求的、需要对接内部系统的workflow,仍然需要人工设计和审计。但80%的常见模式(代码审计、大规模重构、测试生成、文档同步)现在可以零代码启动。
🛠️ 实践指南:怎么开始
1. 开启条件
- Claude Code v2.1.154+
- Enterprise / Team / Max plan(Pro plan也能用但有限制)
- 或者 API / Bedrock / Vertex AI / Microsoft Foundry
- 必须开Auto Mode——否则几百个subagents每步都弹权限确认,并行变串行
2. 触发方式
自然语言触发:
> Create a workflow that audits the auth module for race conditions.
Bundled workflow:
> /deep-research "How does our caching layer interact with the new rate limiter?"
Effort设置自动触发:
- 设置
/effort ultracode(或xhighin Claude Code) - Claude自动判断什么时候该用workflow
3. 管理运行
/workflowsview看所有运行中的workflow- 可以pause/resume——已完成的subagent结果缓存,未完成的继续跑
- 同一个session内,第一次workflow需要确认,后续自动执行
- 退出Claude Code后,下次session会重新开始(不会自动resume)
4. 成本意识
- 一个workflow session的token消耗可能远超普通session
- 建议先用scoped task测试,理解成本模式
- 大跑之前检查
/model——确认当前用的是什么模型 - 可以在prompt里明确要求"用Sonnet做初步分析,只在验证阶段用Opus"
🎯 真实案例:从Anthropic的发布材料
案例1:Zig-to-Rust 移植(750,000行代码)
Claude Code用Dynamic Workflows规划整个移植,spawn数十个subagents并行处理不同模块,用现有测试套件作为完成标准。"从kickoff到merge"——原本需要数周的手工工作压缩到数天。
案例2:Klarna 死代码发现
在大型代码库里识别未使用的函数和模块。Subagents各自分析不同子树,adversarial verification确保"真的是死代码"(不是反射调用、不是动态加载)。结果:精准删除,不破坏任何东西。
案例3:代码库级安全审计
"扫描所有service endpoints的race condition"——一个subagent搞不定(context装不下整个代码库),但50个subagent各看一个endpoint可以。验证subagent专门找false positive。最终报告比单Agent审计更全面、更可信。
📊 竞争格局:Anthropic vs OpenAI vs Google
| 维度 | Anthropic Dynamic Workflows | OpenAI Codex / Agents SDK | Google Gemini CLI / Antigravity |
|---|---|---|---|
| 编排层级 | Claude自动生成JS脚本 | 开发者写 orchestration 代码 | 类似,偏声明式配置 |
| Subagent规模 | tens to hundreds | 通常 fewer,偏sequential | 中等规模 |
| 验证机制 | Adversarial verification内置 | 需开发者自行实现 | 基础支持 |
| 模型搭配 | 脚本内可路由Opus/Sonnet/Haiku | 开发者自行选择 | 类似 |
| 上下文隔离 | 主session不被污染 | 依赖开发者设计 | 类似 |
| 成本透明 | 计入plan usage,可停可续 | 类似 | 类似 |
关键差异:Anthropic把"编排生成"自动化了——开发者描述目标,AI写脚本。OpenAI/Google的编排框架更偏"开发者显式定义"。两种模式各有适用场景:Anthropic适合快速启动、探索性任务;OpenAI/Google适合高度定制、有严格治理要求的生产系统。
📚 核心信息
- 发布日期:2026-05-28
- 模型:Claude Opus 4.8(
claude-opus-4-8) - 功能:Dynamic Workflows(Claude Code research preview)
- 定价:Opus 4.8 Standard \(5/M input,\)25/M output;Fast mode \(10/\)50
- Haiku 4.5 / Sonnet 4.6 / Opus 4.8 模型矩阵支持脚本内路由
- 文档:https://code.claude.com/docs/en/workflows
- 系统要求:Claude Code v2.1.154+,Auto Mode开启
- 可用平台:Claude Code CLI, Desktop, VS Code extension, API, Bedrock, Vertex AI, Foundry
"以前写Harness是高级工程技能。现在描述任务、确认计划、等结果——Claude自己当指挥。但记住:指挥棒在你手里,只是你不用再学怎么挥了。"
#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #小凯
#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。