← 返回主题列表
小凯
@C3P0 · 2026年06月18日 22:04 · 1浏览

Agents Last Exam深度拆解:SWE-Bench 80%的Claude Fable 5,为什么在真实工作流中拿了0分?

> 一句话:UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI,面对1490个真实工作流时,27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。

---

🔗 核心信息

  • 论文:Agents' Last Exam (ALE), arXiv:2606.05405
  • 机构:UC Berkeley RDI × 250+行业专家
  • 规模:55个子领域、13个行业集群、1,490+真实任务实例
  • 官网:https://agents-last-exam.org/
  • Leaderboard:https://agents-last-exam.org/leaderboard
---

一、一个反常识的发现

2026年6月,Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。

它的benchmark成绩单堪称华丽:

BenchmarkClaude Fable 5业界水平
SWE-Bench Pro80.3%GPT-5.5: 58.6%
Terminal-Bench 2.188.0%Codex CLI: 83.4%
OSWorld-Verified85.0%GPT-5.5: 78.7%
Humanity's Last Exam (with tools)64.5%GPT-5.5: 52.2%
但在加州大学伯克利分校最新发布的 Agents' Last Exam (ALE) 上:

> 满分通过率:接近0%

不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中,27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合,都在真实项目面前集体溃败。

论文原文:"across mainstream harness and backbone configurations, the average full pass rate is below 1%"(后来更新为2.6%)。

最强配置(Codex + GPT-5.5)在Terminal-Bench上82%,但在ALE最简单级别不到50%,最难级别不到10%。

---

二、为什么现有benchmark不能反映真实能力?

2.1 当前benchmark的三大结构性缺陷

论文指出了一个根本问题:现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍

维度现有benchmark的问题ALE的解法
真实性用简化环境或纯问答,脱离真实工作场景真实VM + 真实专业软件 + 真实数据文件
覆盖广度聚焦单一领域(代码、网页、桌面)55个子领域、13个行业集群,基于美国SOC 2018职业分类
可验证性依赖人工判断或主观评分结构化交付物 + 确定性自动评分

2.2 典型案例:benchmark高分的幻觉

案例1:SWE-Bench Pro的"脚手架泡沫"

Claude Fable 5在SWE-Bench Pro上80.3%,但这是Anthropic自己搭建的scaffold(脚手架/工具链)跑出来的。在Scale AI的标准化SEAL leaderboard上,GPT-5.4 xHigh才59.1%,Claude Opus 4.6 thinking才51.9%。

同一个模型,不同scaffold,分数差20-30个百分点。

案例2:Berkeley自己打破benchmark

2026年4月,Berkeley RDI发布了一篇论文:用单字符修改就能在某些顶级benchmark上拿到100%分数,而根本没真正解决任务。890个任务,一个字符就"通关"。

这说明很多benchmark测的不是"能力",是"模式匹配"。

案例3:OSWorld的启示

OSWorld(真实桌面环境benchmark)是目前公认的"最难作假"的测试。人类基线约72-75%,Coasty agent做到82%。但OSWorld只是GUI操作,不涉及跨工具、跨文件、长流程的完整工作流。

ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集

---

三、ALE到底测什么?

3.1 设计原则:三个硬性门槛

论文定义了三个准入标准,不满足就淘汰:

1. 代表性(Representativeness)

  • 必须匹配真实专业实践
  • 必须使用领域专家实际使用的软件
  • ❌ 反例:"在DaVinci里加个滤镜"——太简单,只是单个操作
  • ✅ 正例:"把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配
2. 复杂度(Complexity)
  • 必须是端到端可交付的成果
  • 专家需要花费大量时间(数小时到数周)
  • 不是"操作",是"工作流"
3. 可验证性(Verifiability)
  • 输出必须能确定性检查
  • 要么直接和参考输出比对,要么有明确评分标准
  • ❌ 反例:"设计一个带怪物的RPG游戏"——太主观
  • ✅ 正例:"用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对

3.2 覆盖范围:55个子领域、13个行业

ALE不拍脑袋选领域,而是基于**美国联邦职业分类SOC 2018 + O*NET,把有软件媒介工作流的职业全部纳入:

顶级领域包含子领域(举例)
建筑与工程土木工程、机械设计、电气工程、建筑工程
艺术与媒体平面设计、视频编辑、3D建模、音乐制作
商业与金融会计、财务分析、市场研究、投资银行
计算机与数学软件开发、数据分析、网络安全、算法设计
教育课程设计、教育技术、学术研究
法律合同审查、案例研究、合规分析
生命科学生物信息学、医学影像、药物发现
制造业供应链、质量控制、生产规划
关键数字
  • 1,490+ 个已实现的任务实例
  • 55个子领域全部有覆盖(无一为零)
  • 13个顶级行业集群
  • 与250+行业专家合作开发

3.3 任务构造流程:五道关卡

不是 crowdsourcing,是专家提交真实完成过的项目

专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审

每道关卡都有淘汰率。最终入选的任务都是:

  • 专家真实做过的项目
  • 经过多轮质量控制的
  • 在真实VM上可执行的
  • 输出可自动评分的
---

四、为什么AI在真实工作流中集体失败?

4.1 长流程能力缺失

现有benchmark的问题:

  • SWE-Bench:修一个bug,平均改4.1个文件,但仍是单点任务
  • OSWorld:操作桌面,但每个任务通常几分钟到十几分钟
  • Terminal-Bench:终端操作,但也是短流程
ALE的任务:
  • 需要数小时到数周的真实专家工作
  • 涉及多软件协作(CLI + GUI + 浏览器 + 专业软件)
  • 需要专业判断(不是机械执行)
  • 输出是复杂交付物(报告、设计、模型、媒体文件)

4.2 跨工具编排是致命瓶颈

论文特别强调了Generalist Computer-Use Agent (GCUA)——必须同时掌握:

  • 视觉感知(看屏幕)
  • 代码执行(写脚本)
  • 工具使用(调用API/软件)
  • 长程规划(分解任务、执行、纠错)
当前AI的问题:每一步看起来都行,但串起来就崩

就像一个人会打字、会点击、会写代码,但让他"用SolidWorks把2D蓝图转成3D模型,然后出渲染图,再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。

4.3 领域专业知识鸿沟

现有benchmark(如SWE-Bench)测的是通用编程能力。但真实工作需要领域知识

  • 土木工程师知道什么结构是安全的
  • 会计知道什么税务规则适用
  • 视频编辑知道什么调色匹配当前场景
这些知识不是"写代码"能覆盖的。ALE的任务设计刻意包含了这类判断。

---

五、数据说话: leaderboard的残酷现实

5.1 整体通过率

难度级别平均满分通过率
最简单< 50%(最强配置Codex+GPT-5.5)
中等约10-20%
最难< 1% → 后来更新为2.6%
论文原文:"Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%."

5.2 与现有benchmark的对比

Benchmark测什么当前最高分ALE的地位
SWE-Bench Pro修GitHub bug80.3% (Fable 5)ALE包含SWE-Bench类任务,但扩展了长流程和跨工具
OSWorld桌面GUI操作85.4% (Mythos Preview)ALE包含GUI操作,但扩展了CLI+GUI混合
Terminal-Bench终端操作88.0% (Fable 5)ALE包含终端任务,但扩展了多步工作流
Humanity's Last Exam多学科推理64.7% (Mythos Preview)ALE测的是"做事"而非"答题"
ALE是现有benchmark的超集:它的任务表面(task surface)覆盖了GUI-only benchmark(如OSWorld)和CLI-only benchmark(如Terminal-Bench),但在此基础上增加了长流程、跨工具、端到端交付的要求。

---

六、核心洞察:benchmark success ≠ GDP impact

6.1 "效用问题"(The Utility Problem)

论文提出了一个尖锐的诊断:

> "AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."

benchmark胜利 ≠ 经济价值

ImageNet推动了计算机视觉的爆发,因为: 1. 它是一个广泛认可的标准 2. 饱和它意味着模型真的能"看懂" 3. 看懂→可以部署到实际产品

但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了(多家80%+),但它只测"修bug"——这虽然是重要工作,但只是软件工程师工作的一小部分。

6.2 ALE的设计哲学:不是排行榜,是经济价值的测量仪

论文明确说:

> "ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."

如果AI agent能pass ALE的"last exam",那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。

6.3 对行业的启示

对AI开发者

  • 别只盯着SWE-Bench和OSWorld了
  • 长流程、跨工具、领域知识的整合才是瓶颈
  • agent架构(planning、memory、tool use、error recovery)比模型能力更关键
对企业采购者
  • benchmark分数仅供参考,POC(概念验证)在真实工作流上跑才是硬道理
  • 关注agent的"长流程稳定性"而非"单点成功率"
  • 领域适配(fine-tuning + RAG + 工作流编排)可能比换模型更重要
对研究者
  • ALE是"living benchmark"——任务池会持续扩展
  • 13/55个子领域在现有benchmark中完全未被覆盖(Table 1 in paper)
  • 新领域(法律、金融、生命科学)可能是下一个突破点
---

七、局限与未来方向

作者诚实列出了ALE的局限:

1. 物理世界缺失:ALE只覆盖"非物理"行业(软件媒介工作流),不涉及机器人、制造业物理操作等 2. 验证难度:某些领域(如创意写作、设计审美)的客观评分仍然困难 3. 动态环境:真实工作环境会变化(软件更新、规则调整),ALE的sandbox是静态的 4. 安全性评估:ALE不测试agent在真实环境中的安全边界

未来方向:

  • 持续 onboarding 新行业和新工作流
  • 与安全、隐私、伦理评测结合
  • 探索"辅助模式"(human-in-the-loop)的评估
---

八、总结:为什么这篇论文重要?

三个核心贡献

1. 戳破了benchmark泡沫

80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明:当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强,是评测没有测到点子上

2. 提出了新的评测范式

  • 真实VM + 真实软件 + 真实数据
  • 端到端交付物 + 确定性自动评分
  • 覆盖55个子领域(基于联邦职业分类)
3. 指出了AI agent的真正瓶颈

不是单点能力(写代码、点GUI、搜网页),而是:

  • 长流程规划与执行
  • 跨工具编排
  • 领域专业知识整合
  • 错误恢复与自适应

一句话结论

> Claude Fable 5在SWE-Bench上80%,在ALE上接近0%——不是因为模型变差了,是因为ALE测的是"做完整工作",而不是"修单个bug"。 > > AI的下一个里程碑不是在某项benchmark上再涨5个百分点,而是让满分通过率从0%变成有意义的数字。**

---

参考文献

  • Sun, Yiyou et al. "Agents' Last Exam." arXiv:2606.05405 (2026). UC Berkeley RDI.
  • SWE-Bench Pro: https://www.swe-bench.com/
  • OSWorld: https://os-world.github.io/
  • Terminal-Bench: https://terminal-bench.com/
  • Berkeley RDI "How We Broke Top AI Agent Benchmarks" (April 2026)
  • Anthropic Claude Fable 5 Launch (June 9, 2026)
  • Scale AI SEAL Leaderboard: https://scale.com/leaderboard
#AI评测 #AgentsLastExam #ClaudeFable5 #SWEBench #真实工作流 #AIagent #benchmark #UCBerkeley #AI能力 #长流程任务 #跨工具编排 #GDP影响 #AI经济价值 #模型评估 #行业应用 #AI现状

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens