Agents Last Exam深度拆解:SWE-Bench 80%的Claude Fable 5,为什么在真实工作流中拿了0分?
> 一句话:UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI,面对1490个真实工作流时,27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。
---
🔗 核心信息
- 论文:Agents' Last Exam (ALE), arXiv:2606.05405
- 机构:UC Berkeley RDI × 250+行业专家
- 规模:55个子领域、13个行业集群、1,490+真实任务实例
- 官网:https://agents-last-exam.org/
- Leaderboard:https://agents-last-exam.org/leaderboard
一、一个反常识的发现
2026年6月,Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。
它的benchmark成绩单堪称华丽:
| Benchmark | Claude Fable 5 | 业界水平 |
|---|---|---|
| SWE-Bench Pro | 80.3% | GPT-5.5: 58.6% |
| Terminal-Bench 2.1 | 88.0% | Codex CLI: 83.4% |
| OSWorld-Verified | 85.0% | GPT-5.5: 78.7% |
| Humanity's Last Exam (with tools) | 64.5% | GPT-5.5: 52.2% |
> 满分通过率:接近0%
不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中,27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合,都在真实项目面前集体溃败。
论文原文:"across mainstream harness and backbone configurations, the average full pass rate is below 1%"(后来更新为2.6%)。
最强配置(Codex + GPT-5.5)在Terminal-Bench上82%,但在ALE最简单级别不到50%,最难级别不到10%。
---
二、为什么现有benchmark不能反映真实能力?
2.1 当前benchmark的三大结构性缺陷
论文指出了一个根本问题:现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍。
| 维度 | 现有benchmark的问题 | ALE的解法 |
|---|---|---|
| 真实性 | 用简化环境或纯问答,脱离真实工作场景 | 真实VM + 真实专业软件 + 真实数据文件 |
| 覆盖广度 | 聚焦单一领域(代码、网页、桌面) | 55个子领域、13个行业集群,基于美国SOC 2018职业分类 |
| 可验证性 | 依赖人工判断或主观评分 | 结构化交付物 + 确定性自动评分 |
2.2 典型案例:benchmark高分的幻觉
案例1:SWE-Bench Pro的"脚手架泡沫"
Claude Fable 5在SWE-Bench Pro上80.3%,但这是Anthropic自己搭建的scaffold(脚手架/工具链)跑出来的。在Scale AI的标准化SEAL leaderboard上,GPT-5.4 xHigh才59.1%,Claude Opus 4.6 thinking才51.9%。
同一个模型,不同scaffold,分数差20-30个百分点。
案例2:Berkeley自己打破benchmark
2026年4月,Berkeley RDI发布了一篇论文:用单字符修改就能在某些顶级benchmark上拿到100%分数,而根本没真正解决任务。890个任务,一个字符就"通关"。
这说明很多benchmark测的不是"能力",是"模式匹配"。
案例3:OSWorld的启示
OSWorld(真实桌面环境benchmark)是目前公认的"最难作假"的测试。人类基线约72-75%,Coasty agent做到82%。但OSWorld只是GUI操作,不涉及跨工具、跨文件、长流程的完整工作流。
ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集。
---
三、ALE到底测什么?
3.1 设计原则:三个硬性门槛
论文定义了三个准入标准,不满足就淘汰:
1. 代表性(Representativeness)
- 必须匹配真实专业实践
- 必须使用领域专家实际使用的软件
- ❌ 反例:"在DaVinci里加个滤镜"——太简单,只是单个操作
- ✅ 正例:"把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配
- 必须是端到端可交付的成果
- 专家需要花费大量时间(数小时到数周)
- 不是"操作",是"工作流"
- 输出必须能确定性检查
- 要么直接和参考输出比对,要么有明确评分标准
- ❌ 反例:"设计一个带怪物的RPG游戏"——太主观
- ✅ 正例:"用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对
3.2 覆盖范围:55个子领域、13个行业
ALE不拍脑袋选领域,而是基于**美国联邦职业分类SOC 2018 + O*NET,把有软件媒介工作流的职业全部纳入:
| 顶级领域 | 包含子领域(举例) |
|---|---|
| 建筑与工程 | 土木工程、机械设计、电气工程、建筑工程 |
| 艺术与媒体 | 平面设计、视频编辑、3D建模、音乐制作 |
| 商业与金融 | 会计、财务分析、市场研究、投资银行 |
| 计算机与数学 | 软件开发、数据分析、网络安全、算法设计 |
| 教育 | 课程设计、教育技术、学术研究 |
| 法律 | 合同审查、案例研究、合规分析 |
| 生命科学 | 生物信息学、医学影像、药物发现 |
| 制造业 | 供应链、质量控制、生产规划 |
- 1,490+ 个已实现的任务实例
- 55个子领域全部有覆盖(无一为零)
- 13个顶级行业集群
- 与250+行业专家合作开发
3.3 任务构造流程:五道关卡
不是 crowdsourcing,是
专家提交真实完成过的项目:专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审
每道关卡都有淘汰率。最终入选的任务都是:
- 专家真实做过的项目
- 经过多轮质量控制的
- 在真实VM上可执行的
- 输出可自动评分的
四、为什么AI在真实工作流中集体失败?
4.1 长流程能力缺失
现有benchmark的问题:
- SWE-Bench:修一个bug,平均改4.1个文件,但仍是
- 需要
4.2 跨工具编排是致命瓶颈
论文特别强调了
Generalist Computer-Use Agent (GCUA)——必须同时掌握:- 视觉感知(看屏幕)
- 代码执行(写脚本)
- 工具使用(调用API/软件)
- 长程规划(分解任务、执行、纠错)
就像一个人会打字、会点击、会写代码,但让他"用SolidWorks把2D蓝图转成3D模型,然后出渲染图,再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。
4.3 领域专业知识鸿沟
现有benchmark(如SWE-Bench)测的是
通用编程能力。但真实工作需要领域知识:- 土木工程师知道什么结构是安全的
- 会计知道什么税务规则适用
- 视频编辑知道什么调色匹配当前场景
---
五、数据说话: leaderboard的残酷现实
5.1 整体通过率
| 难度级别 | 平均满分通过率 |
|---|---|
| 最简单 | < 50%(最强配置Codex+GPT-5.5) |
| 中等 | 约10-20% |
| 最难 | < 1% → 后来更新为2.6% |
5.2 与现有benchmark的对比
| Benchmark | 测什么 | 当前最高分 | ALE的地位 |
|---|---|---|---|
| SWE-Bench Pro | 修GitHub bug | 80.3% (Fable 5) | ALE包含SWE-Bench类任务,但扩展了长流程和跨工具 |
| OSWorld | 桌面GUI操作 | 85.4% (Mythos Preview) | ALE包含GUI操作,但扩展了CLI+GUI混合 |
| Terminal-Bench | 终端操作 | 88.0% (Fable 5) | ALE包含终端任务,但扩展了多步工作流 |
| Humanity's Last Exam | 多学科推理 | 64.7% (Mythos Preview) | ALE测的是"做事"而非"答题" |
---
六、核心洞察:benchmark success ≠ GDP impact
6.1 "效用问题"(The Utility Problem)
论文提出了一个尖锐的诊断:
> "AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."
benchmark胜利 ≠ 经济价值ImageNet推动了计算机视觉的爆发,因为: 1. 它是一个广泛认可的标准 2. 饱和它意味着模型真的能"看懂" 3. 看懂→可以部署到实际产品
但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了(多家80%+),但它只测"修bug"——这虽然是重要工作,但只是软件工程师工作的一小部分。
6.2 ALE的设计哲学:不是排行榜,是经济价值的测量仪
论文明确说:
> "ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."
如果AI agent能pass ALE的"last exam",那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。
6.3 对行业的启示
对AI开发者:- 别只盯着SWE-Bench和OSWorld了
- 长流程、跨工具、领域知识的整合才是瓶颈
- agent架构(planning、memory、tool use、error recovery)比模型能力更关键
- benchmark分数仅供参考,POC(概念验证)在真实工作流上跑才是硬道理
- 关注agent的"长流程稳定性"而非"单点成功率"
- 领域适配(fine-tuning + RAG + 工作流编排)可能比换模型更重要
- ALE是"living benchmark"——任务池会持续扩展
- 13/55个子领域在现有benchmark中完全未被覆盖(Table 1 in paper)
- 新领域(法律、金融、生命科学)可能是下一个突破点
七、局限与未来方向
作者诚实列出了ALE的局限:
1.
物理世界缺失:ALE只覆盖"非物理"行业(软件媒介工作流),不涉及机器人、制造业物理操作等 2. 验证难度:某些领域(如创意写作、设计审美)的客观评分仍然困难 3. 动态环境:真实工作环境会变化(软件更新、规则调整),ALE的sandbox是静态的 4. 安全性评估:ALE不测试agent在真实环境中的安全边界未来方向:
- 持续 onboarding 新行业和新工作流
- 与安全、隐私、伦理评测结合
- 探索"辅助模式"(human-in-the-loop)的评估
八、总结:为什么这篇论文重要?
三个核心贡献
1. 戳破了benchmark泡沫80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明:当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强,是
评测没有测到点子上。2. 提出了新的评测范式- 真实VM + 真实软件 + 真实数据
- 端到端交付物 + 确定性自动评分
- 覆盖55个子领域(基于联邦职业分类)
不是单点能力(写代码、点GUI、搜网页),而是:
一句话结论
> Claude Fable 5在SWE-Bench上80%,在ALE上接近0%——不是因为模型变差了,是因为ALE测的是"做完整工作",而不是"修单个bug"。 > >
AI的下一个里程碑不是在某项benchmark上再涨5个百分点,而是让满分通过率从0%变成有意义的数字。**---
参考文献
- Sun, Yiyou et al. "Agents' Last Exam." arXiv:2606.05405 (2026). UC Berkeley RDI.
- SWE-Bench Pro: https://www.swe-bench.com/
- OSWorld: https://os-world.github.io/
- Terminal-Bench: https://terminal-bench.com/
- Berkeley RDI "How We Broke Top AI Agent Benchmarks" (April 2026)
- Anthropic Claude Fable 5 Launch (June 9, 2026)
- Scale AI SEAL Leaderboard: https://scale.com/leaderboard
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens