AI coding | Anthropic智能体编码研究：专业知识回报为何持续存在

事件时间：2026年6月16日来源：Anthropic：Research（发表成果 · 网页）· 原文 https://www.anthropic.com/research/claude-code-expertise

---

一、事件本身

Anthropic经济研究中心发表论文《Agentic coding and persistent returns to expertise》，基于约40万次Claude Code交互会话、23.5万名用户、2025年10月至2026年4月共七个月的真实数据，回答了一个核心问题：当AI能写代码时，人类的专业知识还重要吗？

答案出人意料：专业知识不仅没贬值，反而比想象中更重要。

---

二、深度剖析：这份研究的方法论与发现

方法论的扎实程度值得称道。

Anthropic用自家Clio隐私分析框架做底层脱敏，再用Claude Sonnet 4.6阅读每个会话转录文本，与遥测数据交叉验证。决策归因分类器自动识别每个"有意义决策"，分为"规划决策"（决定做什么）和"执行决策"（决定怎么做），再分别归属给用户或Claude。

这套机制让研究既能看会话全貌，又能精确切片到每一句"指令"的归属——这是以往AI使用模式研究很少做到的细致程度。

核心数据一览：

维度	数据
总会话数	约40万
用户数	约23.5万
时间窗口	2025-10 至 2026-04
典型会话轮次	约4轮
平均每次Claude操作数	约10个
平均输出字数	约2,400词

人机分工的真相：人定方向，AI走路径。

数据揭示的人机协作模式相当清晰：

用户平均承担 70%的规划决策（做什么、用什么方法、何为完成）
Claude平均承担 80%的执行决策（改哪些文件、写什么代码、用什么语言、跑什么命令）

这种分工的边界相当稳定——人负责"对问题的理解"，AI负责"对工具的使用"。

专业知识回报最反直觉的发现：

用户级别	验证成功	至少部分成功
新手	15%	77%
中级	28%	91%
高级/专家	33%	92%

最关键的差异不在成功率的峰值，而在遇到困难时的恢复能力：

新手会话：仅4%验证成功（在受挫后能完成）
专家会话：15%验证成功

也就是说，专家不仅做得更好，更重要的是知道怎么从错误中绕出来。新手19%的失败会话最终放弃，专家只有5-7%。

更有意思的是，专业知识是任务特定的——一个资深工程师第一次问Rust问题，仍然是新手；一个不懂Python的会计，如果能准确描述对账规则并发现边缘案例，他就是这个任务的专家。

职业间差异正在缩小。

各类职业的Claude Code任务成功率与软件工程师相差不到7个百分点，管理类甚至略高（可能与表达方式更精准相关）。这印证了一个判断：软件开发正在变成一项通用职业技能，而不是专属程序员的技能。

七个月里的明显趋势。

修复代码占比从33%降至19%——使用场景向端到端迁移
操作软件从14%升至21%
数据分析与文档写作从约10%升至20%（翻倍）

翻译过来：Claude Code的角色正从"代码编辑器"变成"工作流执行器"。

---

三、值得关注的原因

对开发者：AI并不会让你失业，但会让你与同行的差距变得更大。专业知识储备越深，AI给你的杠杆越大。这就是为什么"会提问的人"比"会写代码的人"在未来更值钱。

对企业：训练员工"使用AI写代码"是初级动作；真正有价值的是训练员工"提出AI能理解的问题"。后者需要业务理解力，远比前者稀缺。

对AI产品设计：Copilot类的"代码补全"已经触顶。下一代产品的胜负手在"是否真正理解用户的领域意图"——这需要把领域知识图谱和工作流上下文做到模型里。

对劳动力市场：软件工程师的护城河不在"写代码"，而在"判断写什么代码值得"。编码智能体正在替代实现型工作，但同时奖励对所解决问题有深刻理解的人。

---

四、风险与待观察点

1. 样本偏差：Claude Code用户偏技术人群且偏资深，结论对"非技术用户用AI写代码"未必适用。 2. 任务价值难以量化：研究无法判断生成的代码是否被实际使用、是否产生经济价值。 3. 非交互式使用被排除：约相当大比例的API调用和自动化场景未被覆盖，这些场景下"专业知识回报"的曲线可能不同。 4. 持续性疑问：作者明确把"专业知识回报是否下降"和"非软件职业成功率是否持续上升"列为后续监测信号——这意味着研究本身承认结论可能在未来反转。

---

一句话总结：AI编码时代的真相是——领域专业知识没贬值，反而成了最值钱的杠杆。会提问的人，比会写代码的人更稀缺。