Agentic Coding 五层成熟度模型:从 Copilot 到代码生产系统的全景图谱
参考视角:这不是一篇产品介绍,而是一张「认知地图」。地图的价值不在于告诉你某个地方有什么,而在于让你看清自己现在站在哪一层,以及下一层在哪里。
一、为什么单点分析不够
2024-2025 年,AI 编程工具以惊人的密度出现:GitHub Copilot、Cursor、Claude Code、Codex CLI、Devin、OpenAI 的 Symphony 架构、Ryan Lopopolo 的 Harness Engineering……
每一篇单独的分析报告都在回答同一个问题:"这个工具能做什么?"
但这个问题有个隐含陷阱——它假设所有工具都在做「同一件事」,只是程度不同。事实是,它们在做不同层次的事。把 Devin 和 Copilot 放在一起比较「谁写代码更快」,就像比较自行车和高铁「谁更能运输」——维度错了。
我们需要一个分层框架,让每一件工作都找到它所属的楼层。
二、五层模型
| 层级 | 名称 | 核心特征 | 人类角色 | AI 角色 | 代表产品 |
|---|---|---|---|---|---|
| L1 | 辅助编程 | AI 补全人类正在写的代码 | 主导者 | 辅助者 | GitHub Copilot, Codeium |
| L2 | 对话式编码 | AI 理解上下文,人类通过对话指导 | 导演 | 执行者 | Cursor Chat, GitHub Copilot Chat |
| L3 | 自主任务执行 | AI 独立完成特定任务(文件级/模块级) | 审批者 | 自治体 | Claude Code, Codex CLI, Aider |
| L4 | 多 Agent 编排 | AI 分解复杂任务,协调多个 Agent 协作 | 架构师 | 协调者 | Devin, Symphony (OpenAI), Multi-agent IDE |
| L5 | 代码生产系统 | AI 设计并运行代码工厂,人类定义意图和约束 | 治理者 | 系统设计者 | Harness Engineering |
关键洞察:层级的跃迁不是「量变」(更快、更准),而是「质变」(关系重构)。L1→L2 是交互方式变了,L2→L3 是信任结构变了,L3→L4 是组织方式变了,L4→L5 是价值锚点变了。
三、每层的关键瓶颈指标
L1→L2 的瓶颈:上下文理解深度
- 指标:AI 能理解的代码上下文长度和跨文件关联能力
- 现状:Copilot 的上下文窗口约 2k-8k tokens,Cursor 通过代码库索引扩展到文件级
- 突破信号:当 AI 能主动问"你想修改这个函数,但它在三个地方被调用,你确定吗?"
L2→L3 的瓶颈:自主性与信任
- 指标:AI 在无人干预情况下完成任务的端到端成功率
- 现状:Claude Code 的 SWE-bench 得分约 49%-75%,但仍需人类在关键节点确认
- 突破信号:当人类从"逐轮指导"变成"一次性下达任务,等待结果"
L3→L4 的瓶颈:任务分解与协调
- 指标:AI 将复杂需求拆分为可并行子任务的能力,以及子 Agent 之间的信息同步效率
- 现状:Devin 能规划多步骤任务,但协调效率低;Symphony 通过 Linear 看板驱动多 Agent,但仍在早期
- 突破信号:当多个 Agent 能像一个团队一样自主分配工作、解决冲突、合并代码
L4→L5 的瓶颈:系统设计能力
- 指标:AI 能设计的不是"功能"而是"生产系统"——包括流程、质量标准、反馈循环
- 现状:Ryan Lopopolo 的 Harness Engineering 是首个明确指向 L5 的工程实践
- 突破信号:当 AI 能主动说"这个模块的代码质量下降,建议重构,并自动生成重构计划"
四、谁在尝试"跃层"
跃层比同层竞争难 10 倍,因为需要重新设计人机关系。
| 产品 | 当前层级 | 跃层方向 | 跃层策略 | 风险 |
|---|---|---|---|---|
| Cursor | L2 | → L3 | Composer 模式(8 并行 Agent) | 并行 Agent 的协调逻辑仍是人类设计,未实现真正自治 |
| Claude Code | L3 | → L4 | 支持多文件编辑和工具调用 | 缺乏内置的任务分解和子 Agent 管理机制 |
| Devin | L4 | → L5 | 自主规划 + 沙箱执行 | 系统设计的深度不足,更像"能干活的多面手"而非"工厂设计师" |
| OpenAI (Symphony) | L4 | → L5 | Linear 看板驱动多 Agent + BEAM 并发 | 高度依赖内部基础设施,通用化路径不明 |
一个判断:Cursor 的 Composer 模式是最被低估的跃层尝试。8 个并行 Agent + git worktree 的设计,本质上是在用工程手段解决 L3→L4 的协调问题——不是靠 AI 更聪明,而是靠系统更聪明。
五、共同盲区:所有人都假设代码是目标产物
五层模型有个隐含假设,所有层级的产物都是代码。但 Ryan Lopopolo 的 Harness Engineering 提出了一个更激进的视角:
代码是消耗品,SPEC 才是资产。
这意味着五层模型可能只是一条「过渡路径」,真正的终点不是「AI 生产更好的代码」,而是**「AI 直接从意图生成可运行系统,代码作为中间产物甚至不可见」**。
如果这个盲区被突破,五层模型会变成历史遗迹——就像我们不会用「马车速度层级」来描述高铁时代。
六、预测:下一个突破点在哪里
基于当前趋势和瓶颈分析,三个最可能的方向:
1. L3 的「信任基础设施」
Claude Code 和 Codex CLI 已经在 L3 站稳脚跟,下一步不是提升准确率,而是降低人类的审批负担。这意味着需要:
- 可解释的执行日志(不是"我改了代码",而是"我为什么改、改了什么、影响范围")
- 自动回滚机制(改坏了能自己恢复)
- 人类可配置的"信任阈值"(低风险改动自动通过,高风险必须审批)
2. L4 的「编排抽象层」
Symphony 和 Devin 都在做多 Agent,但各自的实现高度耦合。需要一个独立于具体 Agent 的编排协议,就像 Kubernetes 不 care 你跑什么容器。这个抽象层一旦出现,L4 会从「少数公司的内功」变成「行业基础设施」。
3. L5 的「意图编译器」
Harness Engineering 的终极目标不是让 AI 写更多代码,而是让 AI 理解"人类想要什么"并直接生成系统。这需要:
- 自然语言意图 → 系统约束的精准映射
- 可验证的意图一致性检查(确保生成的系统真的实现了意图)
- 意图版本管理(当意图变化时,系统如何优雅演化)
七、结语
五层模型不是真理,而是一个思考工具。它的价值在于:
- 帮你定位:你正在使用的工具在哪一层?它解决的是什么问题?
- 帮你选择:如果你需要 L3 的能力,Cursor 的 L2+ 跃层尝试可能不够稳定;如果你需要 L4,Devin 比 Claude Code 更适合。
- 帮你预判:当有人说"AI 将取代程序员",你可以问"你说的取代发生在哪一层?"L1 和 L5 的答案完全不同。
Agentic Coding 的真正革命,不是某个工具写得更快,而是整个软件生产范式的楼层在往上搬迁。人类在每层楼的角色都在变化,但有一件事不会变——
定义"要做什么"的,仍然是人。
AI 负责"怎么做"的精度越来越高,但"为什么做"的方向感,暂时还是人类的领地。
参考来源
- Ryan Lopopolo, "Harness Engineering" (AI Engineer Summit 2025)
- OpenAI Symphony Architecture (Linear-driven multi-agent workflow, Elixir/BEAM)
- Anthropic Claude Code & Codex CLI documentation and benchmarks
- Cognition Labs Devin technical reports
- Cursor Composer mode and parallel agent design
- SWE-bench and agentic coding evaluation frameworks
#AgenticCoding #HarnessEngineering #AI编程 #Cursor #ClaudeCode #Devin #Symphony #软件工程范式
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。