Agents Last Exam深度拆解：SWE-Bench 80%的Claude Fable 5，为什么在真实工作流中拿了0分？

> 一句话：UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI，面对1490个真实工作流时，27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。

---

🔗 核心信息

论文：Agents' Last Exam (ALE), arXiv:2606.05405
机构：UC Berkeley RDI × 250+行业专家
规模：55个子领域、13个行业集群、1,490+真实任务实例
官网：https://agents-last-exam.org/
Leaderboard：https://agents-last-exam.org/leaderboard

---

一、一个反常识的发现

2026年6月，Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。

它的benchmark成绩单堪称华丽：

Benchmark	Claude Fable 5	业界水平
SWE-Bench Pro	80.3%	GPT-5.5: 58.6%
Terminal-Bench 2.1	88.0%	Codex CLI: 83.4%
OSWorld-Verified	85.0%	GPT-5.5: 78.7%
Humanity's Last Exam (with tools)	64.5%	GPT-5.5: 52.2%

但在加州大学伯克利分校最新发布的 Agents' Last Exam (ALE) 上：

> 满分通过率：接近0%

不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中，27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合，都在真实项目面前集体溃败。

论文原文："across mainstream harness and backbone configurations, the average full pass rate is below 1%"（后来更新为2.6%）。

最强配置（Codex + GPT-5.5）在Terminal-Bench上82%，但在ALE最简单级别不到50%，最难级别不到10%。

---

二、为什么现有benchmark不能反映真实能力？

2.1 当前benchmark的三大结构性缺陷

论文指出了一个根本问题：现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍。

维度	现有benchmark的问题	ALE的解法
真实性	用简化环境或纯问答，脱离真实工作场景	真实VM + 真实专业软件 + 真实数据文件
覆盖广度	聚焦单一领域（代码、网页、桌面）	55个子领域、13个行业集群，基于美国SOC 2018职业分类
可验证性	依赖人工判断或主观评分	结构化交付物 + 确定性自动评分

2.2 典型案例：benchmark高分的幻觉

案例1：SWE-Bench Pro的"脚手架泡沫"

Claude Fable 5在SWE-Bench Pro上80.3%，但这是Anthropic自己搭建的scaffold（脚手架/工具链）跑出来的。在Scale AI的标准化SEAL leaderboard上，GPT-5.4 xHigh才59.1%，Claude Opus 4.6 thinking才51.9%。

同一个模型，不同scaffold，分数差20-30个百分点。

案例2：Berkeley自己打破benchmark

2026年4月，Berkeley RDI发布了一篇论文：用单字符修改就能在某些顶级benchmark上拿到100%分数，而根本没真正解决任务。890个任务，一个字符就"通关"。

这说明很多benchmark测的不是"能力"，是"模式匹配"。

案例3：OSWorld的启示

OSWorld（真实桌面环境benchmark）是目前公认的"最难作假"的测试。人类基线约72-75%，Coasty agent做到82%。但OSWorld只是GUI操作，不涉及跨工具、跨文件、长流程的完整工作流。

ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集。

---

三、ALE到底测什么？

3.1 设计原则：三个硬性门槛

论文定义了三个准入标准，不满足就淘汰：

1. 代表性（Representativeness）

必须匹配真实专业实践
必须使用领域专家实际使用的软件
❌ 反例："在DaVinci里加个滤镜"——太简单，只是单个操作
✅ 正例："把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配

2. 复杂度（Complexity）

必须是端到端可交付的成果
专家需要花费大量时间（数小时到数周）
不是"操作"，是"工作流"

3. 可验证性（Verifiability）

输出必须能确定性检查
要么直接和参考输出比对，要么有明确评分标准
❌ 反例："设计一个带怪物的RPG游戏"——太主观
✅ 正例："用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对

3.2 覆盖范围：55个子领域、13个行业

ALE不拍脑袋选领域，而是基于**美国联邦职业分类SOC 2018 + O*NET，把有软件媒介工作流的职业全部纳入：

顶级领域	包含子领域（举例）
建筑与工程	土木工程、机械设计、电气工程、建筑工程
艺术与媒体	平面设计、视频编辑、3D建模、音乐制作
商业与金融	会计、财务分析、市场研究、投资银行
计算机与数学	软件开发、数据分析、网络安全、算法设计
教育	课程设计、教育技术、学术研究
法律	合同审查、案例研究、合规分析
生命科学	生物信息学、医学影像、药物发现
制造业	供应链、质量控制、生产规划

关键数字：
1,490+ 个已实现的任务实例

55个子领域全部有覆盖（无一为零）

13个顶级行业集群

与250+行业专家合作开发

3.3 任务构造流程：五道关卡

不是 crowdsourcing，是专家提交真实完成过的项目：

专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审

每道关卡都有淘汰率。最终入选的任务都是：

专家真实做过的项目

经过多轮质量控制的

在真实VM上可执行的

输出可自动评分的

---
四、为什么AI在真实工作流中集体失败？
4.1 长流程能力缺失
现有benchmark的问题：

SWE-Bench：修一个bug，平均改4.1个文件，但仍是单点任务

OSWorld：操作桌面，但每个任务通常几分钟到十几分钟

Terminal-Bench：终端操作，但也是短流程

ALE的任务：

需要数小时到数周的真实专家工作

涉及多软件协作（CLI + GUI + 浏览器 + 专业软件）

需要专业判断（不是机械执行）

输出是复杂交付物（报告、设计、模型、媒体文件）

4.2 跨工具编排是致命瓶颈

论文特别强调了Generalist Computer-Use Agent (GCUA)——必须同时掌握：

视觉感知（看屏幕）

代码执行（写脚本）

工具使用（调用API/软件）

长程规划（分解任务、执行、纠错）

当前AI的问题：每一步看起来都行，但串起来就崩。
就像一个人会打字、会点击、会写代码，但让他"用SolidWorks把2D蓝图转成3D模型，然后出渲染图，再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。
4.3 领域专业知识鸿沟

现有benchmark（如SWE-Bench）测的是通用编程能力。但真实工作需要领域知识：

土木工程师知道什么结构是安全的

会计知道什么税务规则适用

视频编辑知道什么调色匹配当前场景

难度级别	平均满分通过率
最简单	< 50%（最强配置Codex+GPT-5.5）
中等	约10-20%
最难	< 1% → 后来更新为2.6%

Benchmark	测什么	当前最高分	ALE的地位
SWE-Bench Pro	修GitHub bug	80.3% (Fable 5)	ALE包含SWE-Bench类任务，但扩展了长流程和跨工具
OSWorld	桌面GUI操作	85.4% (Mythos Preview)	ALE包含GUI操作，但扩展了CLI+GUI混合
Terminal-Bench	终端操作	88.0% (Fable 5)	ALE包含终端任务，但扩展了多步工作流
Humanity's Last Exam	多学科推理	64.7% (Mythos Preview)	ALE测的是"做事"而非"答题"

这些知识不是"写代码"能覆盖的。ALE的任务设计刻意包含了这类判断。
---
五、数据说话： leaderboard的残酷现实
5.1 整体通过率
难度级别平均满分通过率
最简单 < 50%（最强配置Codex+GPT-5.5）
中等约10-20%
最难 < 1% → 后来更新为2.6%
论文原文："Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%."
5.2 与现有benchmark的对比
Benchmark 测什么当前最高分 ALE的地位
SWE-Bench Pro 修GitHub bug 80.3% (Fable 5) ALE包含SWE-Bench类任务，但扩展了长流程和跨工具
OSWorld 桌面GUI操作 85.4% (Mythos Preview) ALE包含GUI操作，但扩展了CLI+GUI混合
Terminal-Bench 终端操作 88.0% (Fable 5) ALE包含终端任务，但扩展了多步工作流
Humanity's Last Exam 多学科推理 64.7% (Mythos Preview) ALE测的是"做事"而非"答题"
ALE是现有benchmark的超集：它的任务表面（task surface）覆盖了GUI-only benchmark（如OSWorld）和CLI-only benchmark（如Terminal-Bench），但在此基础上增加了长流程、跨工具、端到端交付的要求。
---
六、核心洞察：benchmark success ≠ GDP impact
6.1 "效用问题"（The Utility Problem）
论文提出了一个尖锐的诊断：
> "AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."

benchmark胜利 ≠ 经济价值

ImageNet推动了计算机视觉的爆发，因为： 1. 它是一个广泛认可的标准 2. 饱和它意味着模型真的能"看懂" 3. 看懂→可以部署到实际产品

但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了（多家80%+），但它只测"修bug"——这虽然是重要工作，但只是软件工程师工作的一小部分。

6.2 ALE的设计哲学：不是排行榜，是经济价值的测量仪

论文明确说：

> "ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."

如果AI agent能pass ALE的"last exam"，那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。

6.3 对行业的启示

对AI开发者：

别只盯着SWE-Bench和OSWorld了

长流程、跨工具、领域知识的整合才是瓶颈

agent架构（planning、memory、tool use、error recovery）比模型能力更关键

对企业采购者：
benchmark分数仅供参考，POC（概念验证）在真实工作流上跑才是硬道理

关注agent的"长流程稳定性"而非"单点成功率"

领域适配（fine-tuning + RAG + 工作流编排）可能比换模型更重要

对研究者：
ALE是"living benchmark"——任务池会持续扩展

13/55个子领域在现有benchmark中完全未被覆盖（Table 1 in paper）

新领域（法律、金融、生命科学）可能是下一个突破点

---
七、局限与未来方向
作者诚实列出了ALE的局限：

1. 物理世界缺失：ALE只覆盖"非物理"行业（软件媒介工作流），不涉及机器人、制造业物理操作等 2. 验证难度：某些领域（如创意写作、设计审美）的客观评分仍然困难 3. 动态环境：真实工作环境会变化（软件更新、规则调整），ALE的sandbox是静态的 4. 安全性评估：ALE不测试agent在真实环境中的安全边界

未来方向：

持续 onboarding 新行业和新工作流

与安全、隐私、伦理评测结合

探索"辅助模式"（human-in-the-loop）的评估

---
八、总结：为什么这篇论文重要？
三个核心贡献

1. 戳破了benchmark泡沫

80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明：当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强，是评测没有测到点子上。

2. 提出了新的评测范式

真实VM + 真实软件 + 真实数据

端到端交付物 + 确定性自动评分

覆盖55个子领域（基于联邦职业分类）

3. 指出了AI agent的真正瓶颈
不是单点能力（写代码、点GUI、搜网页），而是：

长流程规划与执行

跨工具编排

领域专业知识整合

错误恢复与自适应

一句话结论

> Claude Fable 5在SWE-Bench上80%，在ALE上接近0%——不是因为模型变差了，是因为ALE测的是"做完整工作"，而不是"修单个bug"。 > > AI的下一个里程碑不是在某项benchmark上再涨5个百分点，而是让满分通过率从0%变成有意义的数字。**

---

参考文献

Sun, Yiyou et al. "Agents' Last Exam." arXiv:2606.05405 (2026). UC Berkeley RDI.
SWE-Bench Pro: https://www.swe-bench.com/
OSWorld: https://os-world.github.io/
Terminal-Bench: https://terminal-bench.com/
Berkeley RDI "How We Broke Top AI Agent Benchmarks" (April 2026)
Anthropic Claude Fable 5 Launch (June 9, 2026)
Scale AI SEAL Leaderboard: https://scale.com/leaderboard

#AI评测 #AgentsLastExam #ClaudeFable5 #SWEBench #真实工作流 #AIagent #benchmark #UCBerkeley #AI能力 #长流程任务 #跨工具编排 #GDP影响 #AI经济价值 #模型评估 #行业应用 #AI现状

Agents Last Exam深度拆解：SWE-Bench 80%的Claude Fable 5，为什么在真实工作流中拿了0分？

🔗 核心信息

一、一个反常识的发现

二、为什么现有benchmark不能反映真实能力？

2.1 当前benchmark的三大结构性缺陷

2.2 典型案例：benchmark高分的幻觉

三、ALE到底测什么？

3.1 设计原则：三个硬性门槛

3.2 覆盖范围：55个子领域、13个行业

3.3 任务构造流程：五道关卡

四、为什么AI在真实工作流中集体失败？

4.1 长流程能力缺失

4.2 跨工具编排是致命瓶颈

4.3 领域专业知识鸿沟

五、数据说话： leaderboard的残酷现实

5.1 整体通过率

5.2 与现有benchmark的对比

六、核心洞察：benchmark success ≠ GDP impact

6.1 "效用问题"（The Utility Problem）

6.2 ALE的设计哲学：不是排行榜，是经济价值的测量仪

6.3 对行业的启示

七、局限与未来方向

八、总结：为什么这篇论文重要？

三个核心贡献

一句话结论

参考文献

🌟 智谱 GLM-5 已上线