摘要
多Agent系统正从实验室走向生产线。SWE-agent已可自主修复GitHub Issue,OpenAI Codex五月生成百万行零手写代码,Stripe Minions周均产出千三百PR无人值守。然则,产能飙升的背后,一个新瓶颈正悄然浮现——不是模型不够强,而是人安排任务的效率太低。
Harness Engineering采集的一线数据道尽这悖论:AI采用率增九成,代码审查时间亦增九成。Agent越能干,人的协调成本越沉重。
CAAO的出发点正落于此:把"人安排任务"升级为"组织自动感知和分派任务"。其架构分三层——感知层从环境变化中识别任务候选、组织层以四大原则(负责人机制、管理Agent不管不执行、员工Agent专业执行、共享Agent必有治理)约束协作秩序、涌现层以沉淀的分配路径驱动组织进化。
本报告以Google ADK的Context Engineering哲学、Multi-Agent架构全景调研(2023-2026)的七大范式和八大框架对比、Harness Engineering一线实践、以及费曼式的诚实边界审视,对CAAO做了事无巨细的解剖。核心结论有三:其一,CAAO的理论贡献在于将"组织感知力"显式化为可研究的架构层——这正是现有所有框架的盲区;其二,感知层和组织层的主张有中等级别证据支撑,但涌现层目前仅有类比推理而无Agent系统实证;其三,最大的实践风险并非技术实现难度,而是"涌现"一词承载了太多不切实际的期待——建议将其定位为探索性假设,以感知层和组织层扎实落地为先。
---
1. 问题:为什么人成了瓶颈
1.1 悖论:Agent越能干,人的负担越重
Harness Engineering(2025)整理了来自OpenAI、Stripe、Anthropic、LangChain的一线数据,发现一个令人不安的悖论:
AI采用率增长90%的同时,代码审查时间增长了91%。
这个数字不是巧合。它揭示了一个结构性真相:Agent生产的越快、越多,人类协调成本同步膨胀。当团队从3个Agent扩展到30个Agent,手动任务分派的开销将从可忽略变为不可承受。不是线性增长——是阶跃。
1.2 从"手动调度"到"操作系统内核调度"
| 维度 | 旧范式(人安排任务) | 新范式(组织自感知) |
|---|---|---|
| 触发方式 | 人类发起 | 环境信号触发 |
| 分配依据 | 经验与直觉 | 上下文匹配 + 历史路径 |
| 适应性 | 静态角色固定 | 动态角色激活 |
| 学习能力 | 无 | 沉淀路径/质量/反馈 |
1.3 现有框架为什么不够
当你用LangGraph搭了一个多Agent工作流,最初的任务是什么、由谁发现的?答案是:人发现的。人定义节点和图。人决定什么时候触发。
CrewAI也一样——谁决定Task是什么?人。AutoGen让Agent以对话协商,谁启动了对话?人。
Multi-Agent架构全景调研(2026)覆盖了30+篇核心论文、7大架构范式。遍历所有系统,有一个共同的盲区:没有哪一个架构把"任务从环境中自动发现"作为一等设计目标。
---
2. CAAO架构:三层体系的精确解剖
2.1 感知层——环境如何变成任务
信号源的工程分类
A. CI/CD事件流
- 原始信号:
pytest failed: tests/test_auth.py::test_token_expiry - 编译输出:
[任务候选] 修复test_token_expiry | 优先级:高 | 置信度:0.92
- 原始信号:Review comment "this regex might not handle unicode input"
- 编译输出:
[任务候选] 增强正则表达式以处理unicode | 优先级:中 | 置信度:0.78
- 原始信号:
ERROR rate spike +350% in payment-service (last 5min) - 编译输出:
[任务候选] 调查payment-service错误率突增 | 优先级:紧急 | 置信度:0.95
- 原始信号:Slack message "@bot 这个接口文档和实现不一致"
- 编译输出:
[任务候选] 对账API文档差异 | 优先级:低 | 置信度:0.65
Working Context (工作上下文)
→ 当前任务聚焦上下文,类比工作记忆
Session / State (会话态)
→ State记录"什么是真的",Events记录"说了什么"
→ 关键洞察:History ≠ State
Memory (跨会话记忆)
→ 长期、压缩、可搜索
Artifacts (制品)
→ 外部文件句柄模式,按需加载
三级过滤器架构:L1硬规则(CI红标等)→ L2置信度过滤(LLM评估)→ L3人工确认(新类型任务首次)
2.2 组织层——四大原则的深层逻辑
原则一:每个Agent背后必须有负责人
Nature(2025):"我们需要人-AI Agent关系中的问责制。" McKinsey(2025):"Accountability by design。"
梯度责任方案:
- 实时级:L3新类型任务需负责人确认
- 批次级:每周Agent结果抽检
- 校准级:每月能力评估 + 更新AGENTS.md
原则二:管理Agent只做管理
Harness Engineering教训:Agent同时承担管理和执行时,工具数15→500,推理质量骤降。最终通过linter强制依赖方向压回15。
原则三:员工Agent负责专业执行
能力声明必须包含:能做什么、不能做什么、已知弱项。
原则四:共享Agent必须有人治理
Frontiers(2024):团队信任的建立需要显式治理。无治理→"公地悲剧"。
2.3 涌现层——最野心勃勃也最证据薄弱的假设
假设:积累足够"任务→Agent→结果"三元组后,涌现超越预设的协作模式。
诚实声明:读遍20+篇Multi-Agent论文和综述,没有看到任何受控实验展示"沉淀→涌现新型协作"的因果链。类比存在(推荐系统协同过滤、蚁群算法信息素、K8s调度优化),但类比不是证据。
---
3. 业界对比
CAAO在七范式中的位置
| 范式 | 代表 | 环境感知 | 治理内嵌 | CAAO距离 |
|---|---|---|---|---|
| Star/Supervisor | AutoGen, Deep Agents | ❌ | 弱 | 组织层同构 |
| Chain/Pipeline | LangGraph, MetaGPT | ❌ | 无 | 感知层可增强 |
| Mesh/Peer | CAMEL, FREE-MAD | ❌ | 无 | 需全部三层 |
| Dynamic/Adaptive | AMAS, REDEREF | ❌ | 无 | 涌现层同向 |
| Handoff/Swarm | OpenAI SDK, Google ADK | ❌ | 弱 | 组织+感知层 |
| Platform/Network | OpenAgents Network | ❌ | 无 | 可作基础设施 |
| Consensus/Ensemble | Spotify, AI NeuroSignal | ❌ | 无 | 可作子机制 |
逐框架对标
| 维度 | LangGraph | CrewAI | Google ADK | AutoGen | CAAO |
|---|---|---|---|---|---|
| 环境感知 | 外部触发 | 外部触发 | 外部触发(面向任务) | 外部触发 | 内建感知层 |
| 治理机制 | 无 | 无 | 弱(Transfer) | 无 | 四大原则 |
| 学习能力 | Checkpoint | 无 | Memory Service | 无 | 路径沉淀 |
| 任务来源 | 人定义 | 人定义 | 人触发 | 人启动 | 环境自动发现 |
4. 工业实践
Stripe Minions:周1300+PR无人值守,前提严格——收敛任务+Buleprint防护+人工最终审查。无人值守≠无人负责。
OpenAI Codex:五月百万行零手写。但审查时间同步膨胀→协调不自动化,Agent越多人的负担越重。
Harness Engineering:推理"三明治"(确定前校验→LLM推理→确定后校验,66.5%成功率)。熵治理——清理Agent吞吐量必须与生成吞吐量成正比。
---
5. 关键挑战
挑战一:"涌现"一词承载了不切实际的期待
严格意义上的涌现=不可从组件行为线性推出。但如果沉淀只是让分配变得更好,那是优化,不是涌现。建议改用"数据驱动的协作进化"。
挑战二:"10分钟阈值"是拍脑袋的数字
任务的"可自主执行性"是三个变量的乘积:Agent可靠度 × 人类审查成本 × 任务可逆性。建议改为"最小人工确认粒度"可配置参数。
挑战三:实证数据匮乏
涌现层假设目前仅有类比推理,无Agent系统实验数据支撑。在完成受控实验之前,只能作为探索性假设存在。
---
6. 实施路线图
- Phase 0(0-3月):操作化定义 + MVP原型(CI/CD→任务候选→人工确认→Agent执行)
- Phase 1(3-9月):感知层落地(四层上下文栈 + 三级过滤器 + CI/CD集成)
- Phase 2(6-15月):组织层建设(角色体系 + AGENTS.md规则库 + 三明治闭环)
- Phase 3(12-24月):涌现层探索(积累10000+三元组 + 对照实验)
7. 结论与证据强度
| 层次 | 核心主张 | 证据强度 |
|---|---|---|
| 感知层 | 环境信号→任务候选 | 中——有工程参照,缺大规模数据 |
| 组织层 | 四大原则优于无治理协作 | 中——工业案例支持,缺对照实验 |
| 涌现层 | 沉淀→超越预设协作 | 低——仅有类比推理 |
最大的实践风险:在证据不足时过早承诺"涌现"。
实现这个过程的第一步,不是写更多的架构文档,而是搭建一个MVP,收集第一组真实的"任务→Agent→结果"数据。看看它到底教会我们什么——而不是我们已经相信什么。
---
参考文献
1. AutoPipelineAI (2025). arXiv:2606.06662 2. CrewAI (2024). GitHub 3. Edison-A-N (2026). Multi-Agent架构全景调研 4. Frontiers (2024). Human-agent collaboration 5. Google (2025). Context-aware multi-agent framework 6. Google Cloud (2026). Agentic AI architecture 7. Harness Engineering (2025). Agents in practice 8. LangGraph (2024). Documentation 9. McKinsey (2025). Accountability by design 10. MetaGPT (2024). GitHub 11. Microsoft (2024). AutoGen 12. Nature (2025). Accountability in AI agent relationships 13. OpenAI (2024). Swarm 14. Mansuy (2025). Google ADK Architecture 15. Springer (2023). GoOrg 16. SWE-agent (2024). Princeton NLP 17. Wei et al. (2025). Multi-Agent Debate. ACL 18. Wu et al. (2025). MAS Through MCP. arXiv:2504.21030 19. 百行代码 (2026). LLM Agent组织模型设计
---
> 研究方法:文献综述 + 框架分析 + 对比分析。基于20+篇来源。 > AI辅助声明:AI辅助完成文献检索与初稿。所有论点经人工审核。 > 诚实边界:涌现层目前仅有类比推理而无Agent系统实证。