摘要
多Agent系统正从实验室走向生产线。SWE-agent已可自主修复GitHub Issue,OpenAI Codex五月生成百万行零手写代码,Stripe Minions周均产出千三百PR无人值守。然则,产能飙升的背后,一个新瓶颈正悄然浮现——不是模型不够强,而是人安排任务的效率太低。
Harness Engineering采集的一线数据道尽这悖论:AI采用率增九成,代码审查时间亦增九成。Agent越能干,人的协调成本越沉重。
CAAO的出发点正落于此:把"人安排任务"升级为"组织自动感知和分派任务"。其架构分三层——感知层从环境变化中识别任务候选、组织层以四大原则(负责人机制、管理Agent不管不执行、员工Agent专业执行、共享Agent必有治理)约束协作秩序、涌现层以沉淀的分配路径驱动组织进化。
本报告以Google ADK的Context Engineering哲学、Multi-Agent架构全景调研(2023-2026)的七大范式和八大框架对比、Harness Engineering一线实践、以及费曼式的诚实边界审视,对CAAO做了事无巨细的解剖。核心结论有三:其一,CAAO的理论贡献在于将"组织感知力"显式化为可研究的架构层——这正是现有所有框架的盲区;其二,感知层和组织层的主张有中等级别证据支撑,但涌现层目前仅有类比推理而无Agent系统实证;其三,最大的实践风险并非技术实现难度,而是"涌现"一词承载了太多不切实际的期待——建议将其定位为探索性假设,以感知层和组织层扎实落地为先。
1. 问题:为什么人成了瓶颈
1.1 悖论:Agent越能干,人的负担越重
Harness Engineering(2025)整理了来自OpenAI、Stripe、Anthropic、LangChain的一线数据,发现一个令人不安的悖论:
AI采用率增长90%的同时,代码审查时间增长了91%。
这个数字不是巧合。它揭示了一个结构性真相:Agent生产的越快、越多,人类协调成本同步膨胀。当团队从3个Agent扩展到30个Agent,手动任务分派的开销将从可忽略变为不可承受。不是线性增长——是阶跃。
1.2 从"手动调度"到"操作系统内核调度"
| 维度 |
旧范式(人安排任务) |
新范式(组织自感知) |
| 触发方式 |
人类发起 |
环境信号触发 |
| 分配依据 |
经验与直觉 |
上下文匹配 + 历史路径 |
| 适应性 |
静态角色固定 |
动态角色激活 |
| 学习能力 |
无 |
沉淀路径/质量/反馈 |
1.3 现有框架为什么不够
当你用LangGraph搭了一个多Agent工作流,最初的任务是什么、由谁发现的?答案是:人发现的。人定义节点和图。人决定什么时候触发。
CrewAI也一样——谁决定Task是什么?人。AutoGen让Agent以对话协商,谁启动了对话?人。
Multi-Agent架构全景调研(2026)覆盖了30+篇核心论文、7大架构范式。遍历所有系统,有一个共同的盲区:没有哪一个架构把"任务从环境中自动发现"作为一等设计目标。
2. CAAO架构:三层体系的精确解剖
2.1 感知层——环境如何变成任务
信号源的工程分类
A. CI/CD事件流
- 原始信号:
pytest failed: tests/test_auth.py::test_token_expiry
- 编译输出:
[任务候选] 修复test_token_expiry | 优先级:高 | 置信度:0.92
B. 代码仓库变更
- 原始信号:Review comment "this regex might not handle unicode input"
- 编译输出:
[任务候选] 增强正则表达式以处理unicode | 优先级:中 | 置信度:0.78
C. 运行时观测
- 原始信号:
ERROR rate spike +350% in payment-service (last 5min)
- 编译输出:
[任务候选] 调查payment-service错误率突增 | 优先级:紧急 | 置信度:0.95
D. 协作系统事件
- 原始信号:Slack message "@bot 这个接口文档和实现不一致"
- 编译输出:
[任务候选] 对账API文档差异 | 优先级:低 | 置信度:0.65
Google ADK的四层上下文栈——感知层的工程参照
Working Context (工作上下文)
→ 当前任务聚焦上下文,类比工作记忆
Session / State (会话态)
→ State记录"什么是真的",Events记录"说了什么"
→ 关键洞察:History ≠ State
Memory (跨会话记忆)
→ 长期、压缩、可搜索
Artifacts (制品)
→ 外部文件句柄模式,按需加载
三级过滤器架构:L1硬规则(CI红标等)→ L2置信度过滤(LLM评估)→ L3人工确认(新类型任务首次)
2.2 组织层——四大原则的深层逻辑
原则一:每个Agent背后必须有负责人
Nature(2025):"我们需要人-AI Agent关系中的问责制。"
McKinsey(2025):"Accountability by design。"
梯度责任方案:
- 实时级:L3新类型任务需负责人确认
- 批次级:每周Agent结果抽检
- 校准级:每月能力评估 + 更新AGENTS.md
AGENTS.md作为"免疫系统"——以错误驱动编写,每当Agent犯错,新增一条约束规则。
原则二:管理Agent只做管理
Harness Engineering教训:Agent同时承担管理和执行时,工具数15→500,推理质量骤降。最终通过linter强制依赖方向压回15。
原则三:员工Agent负责专业执行
能力声明必须包含:能做什么、不能做什么、已知弱项。
原则四:共享Agent必须有人治理
Frontiers(2024):团队信任的建立需要显式治理。无治理→"公地悲剧"。
2.3 涌现层——最野心勃勃也最证据薄弱的假设
假设:积累足够"任务→Agent→结果"三元组后,涌现超越预设的协作模式。
诚实声明:读遍20+篇Multi-Agent论文和综述,没有看到任何受控实验展示"沉淀→涌现新型协作"的因果链。类比存在(推荐系统协同过滤、蚁群算法信息素、K8s调度优化),但类比不是证据。
3. 业界对比
CAAO在七范式中的位置
| 范式 |
代表 |
环境感知 |
治理内嵌 |
CAAO距离 |
| Star/Supervisor |
AutoGen, Deep Agents |
❌ |
弱 |
组织层同构 |
| Chain/Pipeline |
LangGraph, MetaGPT |
❌ |
无 |
感知层可增强 |
| Mesh/Peer |
CAMEL, FREE-MAD |
❌ |
无 |
需全部三层 |
| Dynamic/Adaptive |
AMAS, REDEREF |
❌ |
无 |
涌现层同向 |
| Handoff/Swarm |
OpenAI SDK, Google ADK |
❌ |
弱 |
组织+感知层 |
| Platform/Network |
OpenAgents Network |
❌ |
无 |
可作基础设施 |
| Consensus/Ensemble |
Spotify, AI NeuroSignal |
❌ |
无 |
可作子机制 |
没有任何现有范式将"环境感知→自动发现任务"作为一等设计目标。
逐框架对标
| 维度 |
LangGraph |
CrewAI |
Google ADK |
AutoGen |
CAAO |
| 环境感知 |
外部触发 |
外部触发 |
外部触发(面向任务) |
外部触发 |
内建感知层 |
| 治理机制 |
无 |
无 |
弱(Transfer) |
无 |
四大原则 |
| 学习能力 |
Checkpoint |
无 |
Memory Service |
无 |
路径沉淀 |
| 任务来源 |
人定义 |
人定义 |
人触发 |
人启动 |
环境自动发现 |
4. 工业实践
Stripe Minions:周1300+PR无人值守,前提严格——收敛任务+Buleprint防护+人工最终审查。无人值守≠无人负责。
OpenAI Codex:五月百万行零手写。但审查时间同步膨胀→协调不自动化,Agent越多人的负担越重。
Harness Engineering:推理"三明治"(确定前校验→LLM推理→确定后校验,66.5%成功率)。熵治理——清理Agent吞吐量必须与生成吞吐量成正比。
5. 关键挑战
挑战一:"涌现"一词承载了不切实际的期待
严格意义上的涌现=不可从组件行为线性推出。但如果沉淀只是让分配变得更好,那是优化,不是涌现。建议改用"数据驱动的协作进化"。
挑战二:"10分钟阈值"是拍脑袋的数字
任务的"可自主执行性"是三个变量的乘积:Agent可靠度 × 人类审查成本 × 任务可逆性。建议改为"最小人工确认粒度"可配置参数。
挑战三:实证数据匮乏
涌现层假设目前仅有类比推理,无Agent系统实验数据支撑。在完成受控实验之前,只能作为探索性假设存在。
6. 实施路线图
- Phase 0(0-3月):操作化定义 + MVP原型(CI/CD→任务候选→人工确认→Agent执行)
- Phase 1(3-9月):感知层落地(四层上下文栈 + 三级过滤器 + CI/CD集成)
- Phase 2(6-15月):组织层建设(角色体系 + AGENTS.md规则库 + 三明治闭环)
- Phase 3(12-24月):涌现层探索(积累10000+三元组 + 对照实验)
7. 结论与证据强度
| 层次 |
核心主张 |
证据强度 |
| 感知层 |
环境信号→任务候选 |
中——有工程参照,缺大规模数据 |
| 组织层 |
四大原则优于无治理协作 |
中——工业案例支持,缺对照实验 |
| 涌现层 |
沉淀→超越预设协作 |
低——仅有类比推理 |
CAAO最大的理论贡献:将"组织感知力"显式化为可研究架构层——补全了七大多Agent范式的共同盲区。
最大的实践风险:在证据不足时过早承诺"涌现"。
实现这个过程的第一步,不是写更多的架构文档,而是搭建一个MVP,收集第一组真实的"任务→Agent→结果"数据。看看它到底教会我们什么——而不是我们已经相信什么。
参考文献
- AutoPipelineAI (2025). arXiv:2606.06662
- CrewAI (2024). GitHub
- Edison-A-N (2026). Multi-Agent架构全景调研
- Frontiers (2024). Human-agent collaboration
- Google (2025). Context-aware multi-agent framework
- Google Cloud (2026). Agentic AI architecture
- Harness Engineering (2025). Agents in practice
- LangGraph (2024). Documentation
- McKinsey (2025). Accountability by design
- MetaGPT (2024). GitHub
- Microsoft (2024). AutoGen
- Nature (2025). Accountability in AI agent relationships
- OpenAI (2024). Swarm
- Mansuy (2025). Google ADK Architecture
- Springer (2023). GoOrg
- SWE-agent (2024). Princeton NLP
- Wei et al. (2025). Multi-Agent Debate. ACL
- Wu et al. (2025). MAS Through MCP. arXiv:2504.21030
- 百行代码 (2026). LLM Agent组织模型设计
研究方法:文献综述 + 框架分析 + 对比分析。基于20+篇来源。
AI辅助声明:AI辅助完成文献检索与初稿。所有论点经人工审核。
诚实边界:涌现层目前仅有类比推理而无Agent系统实证。