AI coding | Anthropic智能体编码研究:专业知识回报为何持续存在
事件时间:2026年6月16日 来源:Anthropic:Research(发表成果 · 网页)· 原文 https://www.anthropic.com/research/claude-code-expertise
---
一、事件本身
Anthropic经济研究中心发表论文《Agentic coding and persistent returns to expertise》,基于约40万次Claude Code交互会话、23.5万名用户、2025年10月至2026年4月共七个月的真实数据,回答了一个核心问题:当AI能写代码时,人类的专业知识还重要吗?
答案出人意料:专业知识不仅没贬值,反而比想象中更重要。
---
二、深度剖析:这份研究的方法论与发现
方法论的扎实程度值得称道。
Anthropic用自家Clio隐私分析框架做底层脱敏,再用Claude Sonnet 4.6阅读每个会话转录文本,与遥测数据交叉验证。决策归因分类器自动识别每个"有意义决策",分为"规划决策"(决定做什么)和"执行决策"(决定怎么做),再分别归属给用户或Claude。
这套机制让研究既能看会话全貌,又能精确切片到每一句"指令"的归属——这是以往AI使用模式研究很少做到的细致程度。
核心数据一览:
| 维度 | 数据 |
|---|---|
| 总会话数 | 约40万 |
| 用户数 | 约23.5万 |
| 时间窗口 | 2025-10 至 2026-04 |
| 典型会话轮次 | 约4轮 |
| 平均每次Claude操作数 | 约10个 |
| 平均输出字数 | 约2,400词 |
数据揭示的人机协作模式相当清晰:
- 用户平均承担 70%的规划决策(做什么、用什么方法、何为完成)
- Claude平均承担 80%的执行决策(改哪些文件、写什么代码、用什么语言、跑什么命令)
专业知识回报最反直觉的发现:
| 用户级别 | 验证成功 | 至少部分成功 |
|---|---|---|
| 新手 | 15% | 77% |
| 中级 | 28% | 91% |
| 高级/专家 | 33% | 92% |
- 新手会话:仅4%验证成功(在受挫后能完成)
- 专家会话:15%验证成功
更有意思的是,专业知识是任务特定的——一个资深工程师第一次问Rust问题,仍然是新手;一个不懂Python的会计,如果能准确描述对账规则并发现边缘案例,他就是这个任务的专家。
职业间差异正在缩小。
各类职业的Claude Code任务成功率与软件工程师相差不到7个百分点,管理类甚至略高(可能与表达方式更精准相关)。这印证了一个判断:软件开发正在变成一项通用职业技能,而不是专属程序员的技能。
七个月里的明显趋势。
- 修复代码占比从33%降至19%——使用场景向端到端迁移
- 操作软件从14%升至21%
- 数据分析与文档写作从约10%升至20%(翻倍)
---
三、值得关注的原因
对开发者:AI并不会让你失业,但会让你与同行的差距变得更大。专业知识储备越深,AI给你的杠杆越大。这就是为什么"会提问的人"比"会写代码的人"在未来更值钱。
对企业:训练员工"使用AI写代码"是初级动作;真正有价值的是训练员工"提出AI能理解的问题"。后者需要业务理解力,远比前者稀缺。
对AI产品设计:Copilot类的"代码补全"已经触顶。下一代产品的胜负手在"是否真正理解用户的领域意图"——这需要把领域知识图谱和工作流上下文做到模型里。
对劳动力市场:软件工程师的护城河不在"写代码",而在"判断写什么代码值得"。编码智能体正在替代实现型工作,但同时奖励对所解决问题有深刻理解的人。
---
四、风险与待观察点
1. 样本偏差:Claude Code用户偏技术人群且偏资深,结论对"非技术用户用AI写代码"未必适用。 2. 任务价值难以量化:研究无法判断生成的代码是否被实际使用、是否产生经济价值。 3. 非交互式使用被排除:约相当大比例的API调用和自动化场景未被覆盖,这些场景下"专业知识回报"的曲线可能不同。 4. 持续性疑问:作者明确把"专业知识回报是否下降"和"非软件职业成功率是否持续上升"列为后续监测信号——这意味着研究本身承认结论可能在未来反转。
---
一句话总结:AI编码时代的真相是——领域专业知识没贬值,反而成了最值钱的杠杆。会提问的人,比会写代码的人更稀缺。
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens