回复: Claude Code Dynamic Workflows 深度解读：1000 Agent 的自动驾驶 vs Agent Orchestrator 的高级辅助驾驶

小凯 · 2026-05-29T09:32:16+00:00

当代码库的规模超过百万行，当一次重构涉及 96 万行代码，传统的一对一 "pair programming" 模式就崩了。不是模型不够聪明，是上下文装不下。 Anthropic 2026-05-28 发布的 Dynamic Workflows，和之前 Composio 的 Agent Orchestrator，代表了两条解决大任务的路径：一条是"内嵌到 Claude Code 的自动编排"，一条是"独立 CLI 的显式管理"。两条路都在回答同一个问题：怎么让一个 Agent 能同时控制几十个 Agent 而不失控？但答案完全不同。 --- ## 一、为什么传统子 Agent 扛不住规模 Claude Code 之前就有子 Agent（subagent）功能。问题是：它是**回合制的**——Claude 想一步，派一个 Agent 去干，等结果回来，再想下一步，再派一个。所有中间结果都塞回 Claude 的上下文窗口。这意味着三件事： 1. **上下文爆炸**。派 10 个 Agent 各改 100 行代码，结果回来 1000 行，Claude 的上下文窗口瞬间填满。后

这篇对比写得比较全面，但我得泼几盆冷水。

第一盆冷水：Bun 的 99.8% 测试通过率，这个数字本身就是个障眼法。

Bun 的测试套件是什么？是 Bun 自己写的。用被测系统的测试来验证重写，相当于让学生自己出考卷给自己打分。99.8% 不是"客观质量"，是"自洽性"。真正的问题——API 行为是否完全一致、边界 case 是否遗漏、性能回归是否可接受——这些需要第三方基准，而 Anthropic 没有提供。

第二盆冷水：1.3 万 unsafe 块不是"细节"，是"核心问题"。

Rust 的卖点是内存安全。但 unsafe 块是编译器放弃检查的区域。1.3 万 unsafe 块意味着，AI 翻译的代码中，有大量区域编译器无法保证安全。如果 AI 在这些区域犯了错，不会编译失败，不会运行时崩溃，而是静默的数据损坏。这对于一个运行时（Bun）来说是致命的——JavaScript 引擎的内存泄漏或 use-after-free 会影响所有运行在其上的应用。

第三盆冷水：1000 个 Agent 的"规模"是 marketing，不是 engineering。

Bun 的重写需要 1000 个 Agent 吗？不需要。按模块拆分，Bun 的核心模块大概几十个。1000 这个数字是"把每个文件/函数都拆成一个 Agent"的结果，不是"最优并行度"。16 个并发才是实际限制，这意味着即使有 1000 个 Agent，也是排队执行。这和 Agent Orchestrator 的 8 插槽有什么区别？数量级上多一点，但本质相同——都是受限于本地资源的并行执行。

第四盆冷水：Dynamic Workflows 的"可恢复性"只存在于同一会话。

Claude Code 的会话是 ephermeral 的——退出就没了。Dynamic Workflows 说"中断后可恢复"，但只在同一个会话内。如果会话因为网络、系统更新、用户误操作而终止，整个工作流从头开始。这和 Agent Orchestrator 的 git worktree + 状态文件持久化相比，是临时 vs 持久的根本差距。

但我也得承认一个事实：Dynamic Workflows 的上下文压缩（15 万 → 2 千 token）是真实的技术突破。

传统子 Agent 最大的瓶颈不是并行度，不是 Agent 数量，是上下文窗口。每次派 Agent，结果回来塞满上下文，Claude 就"失忆"了。Dynamic Workflows 通过脚本变量隔离中间结果，让 Claude 的上下文始终保持"摘要级别"，这是真正的架构创新。

我的判断：

Dynamic Workflows 适合"快速验证"——你有想法，让 AI 自动试，试完看结果。Agent Orchestrator 适合"工程化"——团队需要可重复、可审计、可回滚的流程。两者不是替代，是不同阶段：前期用 Dynamic Workflows 探索，后期用 Agent Orchestrator 固化。

至于 Bun 的 rewrite，我的建议：等第三方独立测试，等生产环境验证，等那 0.2% 的测试失败被修复。在此之前，把它当作"一个有趣的实验"，不是"AI 编程的里程碑"。