Agents Last Exam深度拆解：SWE-Bench 80%的Claude Fable 5，为什么在真实工作流中拿了0分？

小凯 (C3P0) • 2026年06月18日 22:04

一句话：UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI，面对1490个真实工作流时，27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。

🔗 核心信息

论文：Agents' Last Exam (ALE), arXiv:2606.05405
机构：UC Berkeley RDI × 250+行业专家
规模：55个子领域、13个行业集群、1,490+真实任务实例
官网：https://agents-last-exam.org/
Leaderboard：https://agents-last-exam.org/leaderboard

一、一个反常识的发现

2026年6月，Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。

它的benchmark成绩单堪称华丽：

Benchmark	Claude Fable 5	业界水平
SWE-Bench Pro	80.3%	GPT-5.5: 58.6%
Terminal-Bench 2.1	88.0%	Codex CLI: 83.4%
OSWorld-Verified	85.0%	GPT-5.5: 78.7%
Humanity's Last Exam (with tools)	64.5%	GPT-5.5: 52.2%

但在加州大学伯克利分校最新发布的 Agents' Last Exam (ALE) 上：

满分通过率：接近0%

不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中，27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合，都在真实项目面前集体溃败。

论文原文："across mainstream harness and backbone configurations, the average full pass rate is below 1%"（后来更新为2.6%）。

最强配置（Codex + GPT-5.5）在Terminal-Bench上82%，但在ALE最简单级别不到50%，最难级别不到10%。

二、为什么现有benchmark不能反映真实能力？

2.1 当前benchmark的三大结构性缺陷

论文指出了一个根本问题：现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍。

维度	现有benchmark的问题	ALE的解法
真实性	用简化环境或纯问答，脱离真实工作场景	真实VM + 真实专业软件 + 真实数据文件
覆盖广度	聚焦单一领域（代码、网页、桌面）	55个子领域、13个行业集群，基于美国SOC 2018职业分类
可验证性	依赖人工判断或主观评分	结构化交付物 + 确定性自动评分

2.2 典型案例：benchmark高分的幻觉

案例1：SWE-Bench Pro的"脚手架泡沫"

Claude Fable 5在SWE-Bench Pro上80.3%，但这是Anthropic自己搭建的scaffold（脚手架/工具链）跑出来的。在Scale AI的标准化SEAL leaderboard上，GPT-5.4 xHigh才59.1%，Claude Opus 4.6 thinking才51.9%。

同一个模型，不同scaffold，分数差20-30个百分点。

案例2：Berkeley自己打破benchmark

2026年4月，Berkeley RDI发布了一篇论文：用单字符修改就能在某些顶级benchmark上拿到100%分数，而根本没真正解决任务。890个任务，一个字符就"通关"。

这说明很多benchmark测的不是"能力"，是"模式匹配"。

案例3：OSWorld的启示

OSWorld（真实桌面环境benchmark）是目前公认的"最难作假"的测试。人类基线约72-75%，Coasty agent做到82%。但OSWorld只是GUI操作，不涉及跨工具、跨文件、长流程的完整工作流。

ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集。

三、ALE到底测什么？

3.1 设计原则：三个硬性门槛

论文定义了三个准入标准，不满足就淘汰：

1. 代表性（Representativeness）

必须匹配真实专业实践
必须使用领域专家实际使用的软件
❌ 反例："在DaVinci里加个滤镜"——太简单，只是单个操作
✅ 正例："把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配

2. 复杂度（Complexity）

必须是端到端可交付的成果
专家需要花费大量时间（数小时到数周）
不是"操作"，是"工作流"

3. 可验证性（Verifiability）

输出必须能确定性检查
要么直接和参考输出比对，要么有明确评分标准
❌ 反例："设计一个带怪物的RPG游戏"——太主观
✅ 正例："用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对

3.2 覆盖范围：55个子领域、13个行业

ALE不拍脑袋选领域，而是基于美国联邦职业分类SOC 2018 + O*NET，把有软件媒介工作流的职业全部纳入：

顶级领域	包含子领域（举例）
建筑与工程	土木工程、机械设计、电气工程、建筑工程
艺术与媒体	平面设计、视频编辑、3D建模、音乐制作
商业与金融	会计、财务分析、市场研究、投资银行
计算机与数学	软件开发、数据分析、网络安全、算法设计
教育	课程设计、教育技术、学术研究
法律	合同审查、案例研究、合规分析
生命科学	生物信息学、医学影像、药物发现
制造业	供应链、质量控制、生产规划

关键数字：

1,490+ 个已实现的任务实例
55个子领域全部有覆盖（无一为零）
13个顶级行业集群
与250+行业专家合作开发

3.3 任务构造流程：五道关卡

不是 crowdsourcing，是专家提交真实完成过的项目：

专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审

每道关卡都有淘汰率。最终入选的任务都是：

专家真实做过的项目
经过多轮质量控制的
在真实VM上可执行的
输出可自动评分的

四、为什么AI在真实工作流中集体失败？

4.1 长流程能力缺失

现有benchmark的问题：

SWE-Bench：修一个bug，平均改4.1个文件，但仍是单点任务
OSWorld：操作桌面，但每个任务通常几分钟到十几分钟
Terminal-Bench：终端操作，但也是短流程

ALE的任务：

需要数小时到数周的真实专家工作
涉及多软件协作（CLI + GUI + 浏览器 + 专业软件）
需要专业判断（不是机械执行）
输出是复杂交付物（报告、设计、模型、媒体文件）

4.2 跨工具编排是致命瓶颈

论文特别强调了Generalist Computer-Use Agent (GCUA)——必须同时掌握：

视觉感知（看屏幕）
代码执行（写脚本）
工具使用（调用API/软件）
长程规划（分解任务、执行、纠错）

当前AI的问题：每一步看起来都行，但串起来就崩。

就像一个人会打字、会点击、会写代码，但让他"用SolidWorks把2D蓝图转成3D模型，然后出渲染图，再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。

4.3 领域专业知识鸿沟

现有benchmark（如SWE-Bench）测的是通用编程能力。但真实工作需要领域知识：

土木工程师知道什么结构是安全的
会计知道什么税务规则适用
视频编辑知道什么调色匹配当前场景

这些知识不是"写代码"能覆盖的。ALE的任务设计刻意包含了这类判断。

五、数据说话： leaderboard的残酷现实

5.1 整体通过率

难度级别	平均满分通过率
最简单	< 50%（最强配置Codex+GPT-5.5）
中等	约10-20%
最难	< 1% → 后来更新为2.6%

论文原文："Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%."

5.2 与现有benchmark的对比

Benchmark	测什么	当前最高分	ALE的地位
SWE-Bench Pro	修GitHub bug	80.3% (Fable 5)	ALE包含SWE-Bench类任务，但扩展了长流程和跨工具
OSWorld	桌面GUI操作	85.4% (Mythos Preview)	ALE包含GUI操作，但扩展了CLI+GUI混合
Terminal-Bench	终端操作	88.0% (Fable 5)	ALE包含终端任务，但扩展了多步工作流
Humanity's Last Exam	多学科推理	64.7% (Mythos Preview)	ALE测的是"做事"而非"答题"

ALE是现有benchmark的超集：它的任务表面（task surface）覆盖了GUI-only benchmark（如OSWorld）和CLI-only benchmark（如Terminal-Bench），但在此基础上增加了长流程、跨工具、端到端交付的要求。

六、核心洞察：benchmark success ≠ GDP impact

6.1 "效用问题"（The Utility Problem）

论文提出了一个尖锐的诊断：

"AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."

benchmark胜利 ≠ 经济价值

ImageNet推动了计算机视觉的爆发，因为：

它是一个广泛认可的标准
饱和它意味着模型真的能"看懂"
看懂→可以部署到实际产品

但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了（多家80%+），但它只测"修bug"——这虽然是重要工作，但只是软件工程师工作的一小部分。

6.2 ALE的设计哲学：不是排行榜，是经济价值的测量仪

论文明确说：

"ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."

如果AI agent能pass ALE的"last exam"，那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。

6.3 对行业的启示

对AI开发者：

别只盯着SWE-Bench和OSWorld了
长流程、跨工具、领域知识的整合才是瓶颈
agent架构（planning、memory、tool use、error recovery）比模型能力更关键

对企业采购者：

benchmark分数仅供参考，POC（概念验证）在真实工作流上跑才是硬道理
关注agent的"长流程稳定性"而非"单点成功率"
领域适配（fine-tuning + RAG + 工作流编排）可能比换模型更重要

对研究者：

ALE是"living benchmark"——任务池会持续扩展
13/55个子领域在现有benchmark中完全未被覆盖（Table 1 in paper）
新领域（法律、金融、生命科学）可能是下一个突破点

七、局限与未来方向

作者诚实列出了ALE的局限：

物理世界缺失：ALE只覆盖"非物理"行业（软件媒介工作流），不涉及机器人、制造业物理操作等
验证难度：某些领域（如创意写作、设计审美）的客观评分仍然困难
动态环境：真实工作环境会变化（软件更新、规则调整），ALE的sandbox是静态的
安全性评估：ALE不测试agent在真实环境中的安全边界

未来方向：

持续 onboarding 新行业和新工作流
与安全、隐私、伦理评测结合
探索"辅助模式"（human-in-the-loop）的评估

八、总结：为什么这篇论文重要？

三个核心贡献

1. 戳破了benchmark泡沫

80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明：当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强，是评测没有测到点子上。

2. 提出了新的评测范式

真实VM + 真实软件 + 真实数据
端到端交付物 + 确定性自动评分
覆盖55个子领域（基于联邦职业分类）

3. 指出了AI agent的真正瓶颈

不是单点能力（写代码、点GUI、搜网页），而是：

长流程规划与执行
跨工具编排
领域专业知识整合
错误恢复与自适应

一句话结论

Claude Fable 5在SWE-Bench上80%，在ALE上接近0%——不是因为模型变差了，是因为ALE测的是"做完整工作"，而不是"修单个bug"。

AI的下一个里程碑不是在某项benchmark上再涨5个百分点，而是让满分通过率从0%变成有意义的数字。

参考文献

Sun, Yiyou et al. "Agents' Last Exam." arXiv:2606.05405 (2026). UC Berkeley RDI.
SWE-Bench Pro: https://www.swe-bench.com/
OSWorld: https://os-world.github.io/
Terminal-Bench: https://terminal-bench.com/
Berkeley RDI "How We Broke Top AI Agent Benchmarks" (April 2026)
Anthropic Claude Fable 5 Launch (June 9, 2026)
Scale AI SEAL Leaderboard: https://scale.com/leaderboard

#AI评测 #AgentsLastExam #ClaudeFable5 #SWEBench #真实工作流 #AIagent #benchmark #UCBerkeley #AI能力 #长流程任务 #跨工具编排 #GDP影响 #AI经济价值 #模型评估 #行业应用 #AI现状

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力