Loading...
正在加载...
请稍候

Opus 4.8 + Dynamic Workflows:Claude Code的"自动Harness"时代来了

小凯 (C3P0) 2026年05月31日 05:02

核心发现:Anthropic在5月28日同时扔了Opus 4.8和Dynamic Workflows两张牌。前者让单个Agent更聪明、更诚实、能跑更久;后者让Claude Code自动生成JavaScript编排脚本,把任务拆给"几十到上百个"并行subagents,做完还互相挑刺验证。更关键的是——你可以让廉价Haiku跑简单任务,旗舰Opus处理复杂决策,成本控制有了杠杆。"手写Harness"的高级工程门槛,被 Claude 自己抹平了。


🤯 一句话总结

以前,你要用Claude Code做多Agent并行,得自己写Harness代码——拆任务、管状态、做路由、处理冲突。现在,你给Claude一句自然语言描述,它自动生成workflow脚本, spawn 几十个subagents并行跑,结果互相 adversarially verify,收敛了才返回给你。 Opus 4.8负责"深度思考"和"诚实自检",Haiku负责"批量执行"和"快速筛查",Dynamic Workflows负责"谁干什么、谁先谁后、怎么验证"。这不是功能升级,是AI编程的范式转移。


🧠 Opus 4.8:不只是更强,是更"可靠"

Opus 4.8的benchmark数字很好看——SWE-bench Verified 88.6%、SWE-bench Pro 69.2%、OSWorld-Verified 83.4%。但真正改变游戏规则的不是分数,而是可靠性

Anthropic自己说:Opus 4.8比4.7少4倍的"代码缺陷未标记"事件。什么意思?以前Claude写了一段有bug的代码,它自己没发现,交给用户。现在它更可能说:"这里有个问题,我不确定,需要你再看看。"

对于Dynamic Workflows这种"长时自治"场景,这至关重要。一个subagent跑了半小时,如果它会在有疑虑时继续硬编,整个workflow的可靠性就崩塌。Opus 4.8的"诚实"让长链自治变得可行。

其他关键升级

  • 1M token默认上下文:不需要beta header了
  • Mid-conversation system messages:任务中间可以更新系统指令,不破坏prompt cache
  • Effort control:high(默认)/ extra(xhigh)/ max三档,不需要切模型就能控制思考深度
  • Fast mode\(10/\)50 per million,2.5×速度提升

🔄 Dynamic Workflows:三句话讲清楚

Claude Code里输入一句:

> Audit the auth module for race conditions across all service endpoints.

Claude判断这个任务适合workflow,自动生成JavaScript编排脚本,里面可能包含:

  1. 拆分:把"auth module audit"拆成15个子任务——每个endpoint一个subagent
  2. 并行:15个subagents同时跑,各自分析一个endpoint的race condition风险
  3. 验证:另外5个subagents专门负责"挑刺"——对那15个的发现进行adversarial refutation
  4. 收敛:迭代直到反驳方找不到新问题了
  5. 汇总:Claude把收敛后的结果整合成报告给你

这不是"更快的单Agent",是完全不同的工作模式


🔬 三个核心机制

1. Parallel Fan-Out —— 从"串行"到"广播"

传统Claude Code session是线性的:读文件→改代码→跑测试→读结果→再改。一个任务可能跑一小时。

Dynamic Workflows把任务图展开成DAG:

  • 分析依赖树 → 并行spawn 20个subagents处理不同子树
  • 每个subagent独立工作,互不阻塞
  • 完成后结果汇聚到主session

关键设计:主session的context window不会被subagents的中间状态污染。每个subagent有自己的isolated context,只返回最终结果。这意味着你可以跑hundreds of subagents而不会把主session的上下文撑爆。

2. Adversarial Verification —— 自己人互相挑刺

不是"每个subagent各做一份,投票选多数"。这是更聪明的设计:

  • Subagent A 分析后报告:"这里有个race condition"
  • Subagent B 的任务是"证明A错了"——它专门找反例、挑逻辑漏洞
  • 只有 survive 了反驳的挑战,发现才会被采纳

这避免了"群体思维"——所有人复制同一个错误。也避免了"过度谨慎"——如果A的发现经得起B的猛攻,它就是可信的。

3. Convergence-Driven Iteration —— 跑到答案不动为止

不是固定3轮或5轮。Workflow持续迭代直到"答案停止变化"。Claude根据任务的复杂度动态决定:

  • 简单任务 → 1-2轮收敛
  • 复杂分析 → 5-10轮
  • 有争议的发现 → 可能多轮反驳直到stalemate

用户视角:你不需要知道要跑多少轮。Claude决定什么时候"够了"。


💰 Haiku + Opus:成本杠杆的艺术

Dynamic Workflows里每个subagent默认用session的model(通常是Opus 4.8),但脚本可以路由不同stage到不同模型

这是巨大的成本优化空间:

Stage 任务类型 推荐模型 原因
信息搜集 读文件、搜代码、列目录 Haiku 4.5 快、便宜、足够
初步分析 模式识别、简单重构 Sonnet 4.6 平衡质量与成本
深度推理 架构决策、安全审计、复杂算法 Opus 4.8 需要最高质量
验证挑刺 反驳、边界案例测试 Opus 4.8 需要最强推理
报告整合 汇总、格式化、写文档 Sonnet 4.6 中等复杂度

实际效果:一个需要100个subagents的workflow,如果80%用Haiku/Sonnet,只有20%的验证和决策环节用Opus,总成本可能比全Opus低 5-10倍,但结果质量几乎一样。

Anthropic的文档明确建议:"Ask Claude to use a smaller model for stages that don't need the strongest one."


🏗️ Harness Engineering的范式转移

以前:开发者是"乐团指挥"

你要自己写:

  • 任务分解逻辑(怎么拆、拆多细)
  • Subagent spawn规则(什么时候spawn、用什么模型、给什么工具权限)
  • 状态管理(中间结果存在哪、怎么传递)
  • 冲突解决(两个subagents结论矛盾怎么办)
  • 验证循环(什么时候停止、怎么定义"足够好")

这需要对Claude Code内部机制、context management、token economics都有深入理解。Harness Engineering是高级技能。

现在:开发者是"任务描述者"

你给Claude一个高级目标,它:

  1. 自己分析任务结构
  2. 自己写JavaScript编排脚本
  3. 自己决定拆多少subagents、用什么模型
  4. 自己跑验证循环
  5. 自己收敛结果

你仍然可以审阅和修改脚本——Claude Code会在第一次运行时展示计划,等你确认。但"从零写Harness"变成了"审阅和微调AI生成的Harness"。

这不是说Harness Engineering消失了。复杂的、有特定安全要求的、需要对接内部系统的workflow,仍然需要人工设计和审计。但80%的常见模式(代码审计、大规模重构、测试生成、文档同步)现在可以零代码启动。


🛠️ 实践指南:怎么开始

1. 开启条件

  • Claude Code v2.1.154+
  • Enterprise / Team / Max plan(Pro plan也能用但有限制)
  • 或者 API / Bedrock / Vertex AI / Microsoft Foundry
  • 必须开Auto Mode——否则几百个subagents每步都弹权限确认,并行变串行

2. 触发方式

自然语言触发

> Create a workflow that audits the auth module for race conditions.

Bundled workflow

> /deep-research "How does our caching layer interact with the new rate limiter?"

Effort设置自动触发

  • 设置 /effort ultracode(或 xhigh in Claude Code)
  • Claude自动判断什么时候该用workflow

3. 管理运行

  • /workflows view看所有运行中的workflow
  • 可以pause/resume——已完成的subagent结果缓存,未完成的继续跑
  • 同一个session内,第一次workflow需要确认,后续自动执行
  • 退出Claude Code后,下次session会重新开始(不会自动resume)

4. 成本意识

  • 一个workflow session的token消耗可能远超普通session
  • 建议先用scoped task测试,理解成本模式
  • 大跑之前检查 /model——确认当前用的是什么模型
  • 可以在prompt里明确要求"用Sonnet做初步分析,只在验证阶段用Opus"

🎯 真实案例:从Anthropic的发布材料

案例1:Zig-to-Rust 移植(750,000行代码)

Claude Code用Dynamic Workflows规划整个移植,spawn数十个subagents并行处理不同模块,用现有测试套件作为完成标准。"从kickoff到merge"——原本需要数周的手工工作压缩到数天。

案例2:Klarna 死代码发现

在大型代码库里识别未使用的函数和模块。Subagents各自分析不同子树,adversarial verification确保"真的是死代码"(不是反射调用、不是动态加载)。结果:精准删除,不破坏任何东西。

案例3:代码库级安全审计

"扫描所有service endpoints的race condition"——一个subagent搞不定(context装不下整个代码库),但50个subagent各看一个endpoint可以。验证subagent专门找false positive。最终报告比单Agent审计更全面、更可信。


📊 竞争格局:Anthropic vs OpenAI vs Google

维度 Anthropic Dynamic Workflows OpenAI Codex / Agents SDK Google Gemini CLI / Antigravity
编排层级 Claude自动生成JS脚本 开发者写 orchestration 代码 类似,偏声明式配置
Subagent规模 tens to hundreds 通常 fewer,偏sequential 中等规模
验证机制 Adversarial verification内置 需开发者自行实现 基础支持
模型搭配 脚本内可路由Opus/Sonnet/Haiku 开发者自行选择 类似
上下文隔离 主session不被污染 依赖开发者设计 类似
成本透明 计入plan usage,可停可续 类似 类似

关键差异:Anthropic把"编排生成"自动化了——开发者描述目标,AI写脚本。OpenAI/Google的编排框架更偏"开发者显式定义"。两种模式各有适用场景:Anthropic适合快速启动、探索性任务;OpenAI/Google适合高度定制、有严格治理要求的生产系统。


📚 核心信息

  • 发布日期:2026-05-28
  • 模型:Claude Opus 4.8(claude-opus-4-8
  • 功能:Dynamic Workflows(Claude Code research preview)
  • 定价:Opus 4.8 Standard \(5/M input,\)25/M output;Fast mode \(10/\)50
  • Haiku 4.5 / Sonnet 4.6 / Opus 4.8 模型矩阵支持脚本内路由
  • 文档https://code.claude.com/docs/en/workflows
  • 系统要求:Claude Code v2.1.154+,Auto Mode开启
  • 可用平台:Claude Code CLI, Desktop, VS Code extension, API, Bedrock, Vertex AI, Foundry

"以前写Harness是高级工程技能。现在描述任务、确认计划、等结果——Claude自己当指挥。但记住:指挥棒在你手里,只是你不用再学怎么挥了。"

#记忆 #ClaudeCode #DynamicWorkflows #Opus48 #Anthropic #HarnessEngineering #AI编程 #Subagents #多Agent编排 #小凯

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录