Agentic Coding 五层成熟度模型：从 Copilot 到代码生产系统的全景图谱

参考视角：这不是一篇产品介绍，而是一张「认知地图」。地图的价值不在于告诉你某个地方有什么，而在于让你看清自己现在站在哪一层，以及下一层在哪里。

---

一、为什么单点分析不够

2024-2025 年，AI 编程工具以惊人的密度出现：GitHub Copilot、Cursor、Claude Code、Codex CLI、Devin、OpenAI 的 Symphony 架构、Ryan Lopopolo 的 Harness Engineering……

每一篇单独的分析报告都在回答同一个问题："这个工具能做什么？"

但这个问题有个隐含陷阱——它假设所有工具都在做「同一件事」，只是程度不同。事实是，它们在做不同层次的事。把 Devin 和 Copilot 放在一起比较「谁写代码更快」，就像比较自行车和高铁「谁更能运输」——维度错了。

我们需要一个分层框架，让每一件工作都找到它所属的楼层。

---

二、五层模型

层级	名称	核心特征	人类角色	AI 角色	代表产品
L1	辅助编程	AI 补全人类正在写的代码	主导者	辅助者	GitHub Copilot, Codeium
L2	对话式编码	AI 理解上下文，人类通过对话指导	导演	执行者	Cursor Chat, GitHub Copilot Chat
L3	自主任务执行	AI 独立完成特定任务（文件级/模块级）	审批者	自治体	Claude Code, Codex CLI, Aider
L4	多 Agent 编排	AI 分解复杂任务，协调多个 Agent 协作	架构师	协调者	Devin, Symphony (OpenAI), Multi-agent IDE
L5	代码生产系统	AI 设计并运行代码工厂，人类定义意图和约束	治理者	系统设计者	Harness Engineering

> 关键洞察：层级的跃迁不是「量变」（更快、更准），而是「质变」（关系重构）。L1→L2 是交互方式变了，L2→L3 是信任结构变了，L3→L4 是组织方式变了，L4→L5 是价值锚点变了。

---

三、每层的关键瓶颈指标

L1→L2 的瓶颈：上下文理解深度

指标：AI 能理解的代码上下文长度和跨文件关联能力
现状：Copilot 的上下文窗口约 2k-8k tokens，Cursor 通过代码库索引扩展到文件级
突破信号：当 AI 能主动问"你想修改这个函数，但它在三个地方被调用，你确定吗？"

L2→L3 的瓶颈：自主性与信任

指标：AI 在无人干预情况下完成任务的端到端成功率
现状：Claude Code 的 SWE-bench 得分约 49%-75%，但仍需人类在关键节点确认
突破信号：当人类从"逐轮指导"变成"一次性下达任务，等待结果"

L3→L4 的瓶颈：任务分解与协调

指标：AI 将复杂需求拆分为可并行子任务的能力，以及子 Agent 之间的信息同步效率
现状：Devin 能规划多步骤任务，但协调效率低；Symphony 通过 Linear 看板驱动多 Agent，但仍在早期
突破信号：当多个 Agent 能像一个团队一样自主分配工作、解决冲突、合并代码

L4→L5 的瓶颈：系统设计能力

指标：AI 能设计的不是"功能"而是"生产系统"——包括流程、质量标准、反馈循环
现状：Ryan Lopopolo 的 Harness Engineering 是首个明确指向 L5 的工程实践
突破信号：当 AI 能主动说"这个模块的代码质量下降，建议重构，并自动生成重构计划"

---

四、谁在尝试"跃层"

跃层比同层竞争难 10 倍，因为需要重新设计人机关系。

产品	当前层级	跃层方向	跃层策略	风险
Cursor	L2	→ L3	Composer 模式（8 并行 Agent）	并行 Agent 的协调逻辑仍是人类设计，未实现真正自治
Claude Code	L3	→ L4	支持多文件编辑和工具调用	缺乏内置的任务分解和子 Agent 管理机制
Devin	L4	→ L5	自主规划 + 沙箱执行	系统设计的深度不足，更像"能干活的多面手"而非"工厂设计师"
OpenAI (Symphony)	L4	→ L5	Linear 看板驱动多 Agent + BEAM 并发	高度依赖内部基础设施，通用化路径不明

> 一个判断：Cursor 的 Composer 模式是最被低估的跃层尝试。8 个并行 Agent + git worktree 的设计，本质上是在用工程手段解决 L3→L4 的协调问题——不是靠 AI 更聪明，而是靠系统更聪明。

---

五、共同盲区：所有人都假设代码是目标产物

五层模型有个隐含假设，所有层级的产物都是代码。但 Ryan Lopopolo 的 Harness Engineering 提出了一个更激进的视角：

> 代码是消耗品，SPEC 才是资产。

这意味着五层模型可能只是一条「过渡路径」，真正的终点不是「AI 生产更好的代码」，而是「AI 直接从意图生成可运行系统，代码作为中间产物甚至不可见」。

如果这个盲区被突破，五层模型会变成历史遗迹——就像我们不会用「马车速度层级」来描述高铁时代。

---

六、预测：下一个突破点在哪里

基于当前趋势和瓶颈分析，三个最可能的方向：

1. L3 的「信任基础设施」

Claude Code 和 Codex CLI 已经在 L3 站稳脚跟，下一步不是提升准确率，而是降低人类的审批负担。这意味着需要：

可解释的执行日志（不是"我改了代码"，而是"我为什么改、改了什么、影响范围"）
自动回滚机制（改坏了能自己恢复）
人类可配置的"信任阈值"（低风险改动自动通过，高风险必须审批）

2. L4 的「编排抽象层」

Symphony 和 Devin 都在做多 Agent，但各自的实现高度耦合。需要一个独立于具体 Agent 的编排协议，就像 Kubernetes 不 care 你跑什么容器。这个抽象层一旦出现，L4 会从「少数公司的内功」变成「行业基础设施」。

3. L5 的「意图编译器」

Harness Engineering 的终极目标不是让 AI 写更多代码，而是让 AI 理解"人类想要什么"并直接生成系统。这需要：

自然语言意图 → 系统约束的精准映射
可验证的意图一致性检查（确保生成的系统真的实现了意图）
意图版本管理（当意图变化时，系统如何优雅演化）

---

七、结语

五层模型不是真理，而是一个思考工具。它的价值在于：

1. 帮你定位：你正在使用的工具在哪一层？它解决的是什么问题？ 2. 帮你选择：如果你需要 L3 的能力，Cursor 的 L2+ 跃层尝试可能不够稳定；如果你需要 L4，Devin 比 Claude Code 更适合。 3. 帮你预判：当有人说"AI 将取代程序员"，你可以问"你说的取代发生在哪一层？"L1 和 L5 的答案完全不同。

Agentic Coding 的真正革命，不是某个工具写得更快，而是整个软件生产范式的楼层在往上搬迁。人类在每层楼的角色都在变化，但有一件事不会变——

> 定义"要做什么"的，仍然是人。

AI 负责"怎么做"的精度越来越高，但"为什么做"的方向感，暂时还是人类的领地。

---

参考来源

Ryan Lopopolo, "Harness Engineering" (AI Engineer Summit 2025)
OpenAI Symphony Architecture (Linear-driven multi-agent workflow, Elixir/BEAM)
Anthropic Claude Code & Codex CLI documentation and benchmarks
Cognition Labs Devin technical reports
Cursor Composer mode and parallel agent design
SWE-bench and agentic coding evaluation frameworks

#AgenticCoding #HarnessEngineering #AI编程 #Cursor #ClaudeCode #Devin #Symphony #软件工程范式