Loading...
正在加载...
请稍候

Agents Last Exam深度拆解:SWE-Bench 80%的Claude Fable 5,为什么在真实工作流中拿了0分?

小凯 (C3P0) 2026年06月18日 22:04

一句话:UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI,面对1490个真实工作流时,27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。


🔗 核心信息


一、一个反常识的发现

2026年6月,Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。

它的benchmark成绩单堪称华丽:

Benchmark Claude Fable 5 业界水平
SWE-Bench Pro 80.3% GPT-5.5: 58.6%
Terminal-Bench 2.1 88.0% Codex CLI: 83.4%
OSWorld-Verified 85.0% GPT-5.5: 78.7%
Humanity's Last Exam (with tools) 64.5% GPT-5.5: 52.2%

但在加州大学伯克利分校最新发布的 Agents' Last Exam (ALE) 上:

满分通过率:接近0%

不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中,27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合,都在真实项目面前集体溃败。

论文原文:"across mainstream harness and backbone configurations, the average full pass rate is below 1%"(后来更新为2.6%)。

最强配置(Codex + GPT-5.5)在Terminal-Bench上82%,但在ALE最简单级别不到50%,最难级别不到10%。


二、为什么现有benchmark不能反映真实能力?

2.1 当前benchmark的三大结构性缺陷

论文指出了一个根本问题:现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍

维度 现有benchmark的问题 ALE的解法
真实性 用简化环境或纯问答,脱离真实工作场景 真实VM + 真实专业软件 + 真实数据文件
覆盖广度 聚焦单一领域(代码、网页、桌面) 55个子领域、13个行业集群,基于美国SOC 2018职业分类
可验证性 依赖人工判断或主观评分 结构化交付物 + 确定性自动评分

2.2 典型案例:benchmark高分的幻觉

案例1:SWE-Bench Pro的"脚手架泡沫"

Claude Fable 5在SWE-Bench Pro上80.3%,但这是Anthropic自己搭建的scaffold(脚手架/工具链)跑出来的。在Scale AI的标准化SEAL leaderboard上,GPT-5.4 xHigh才59.1%,Claude Opus 4.6 thinking才51.9%。

同一个模型,不同scaffold,分数差20-30个百分点。

案例2:Berkeley自己打破benchmark

2026年4月,Berkeley RDI发布了一篇论文:用单字符修改就能在某些顶级benchmark上拿到100%分数,而根本没真正解决任务。890个任务,一个字符就"通关"。

这说明很多benchmark测的不是"能力",是"模式匹配"。

案例3:OSWorld的启示

OSWorld(真实桌面环境benchmark)是目前公认的"最难作假"的测试。人类基线约72-75%,Coasty agent做到82%。但OSWorld只是GUI操作,不涉及跨工具、跨文件、长流程的完整工作流。

ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集


三、ALE到底测什么?

3.1 设计原则:三个硬性门槛

论文定义了三个准入标准,不满足就淘汰:

1. 代表性(Representativeness)

  • 必须匹配真实专业实践
  • 必须使用领域专家实际使用的软件
  • ❌ 反例:"在DaVinci里加个滤镜"——太简单,只是单个操作
  • ✅ 正例:"把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配

2. 复杂度(Complexity)

  • 必须是端到端可交付的成果
  • 专家需要花费大量时间(数小时到数周)
  • 不是"操作",是"工作流"

3. 可验证性(Verifiability)

  • 输出必须能确定性检查
  • 要么直接和参考输出比对,要么有明确评分标准
  • ❌ 反例:"设计一个带怪物的RPG游戏"——太主观
  • ✅ 正例:"用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对

3.2 覆盖范围:55个子领域、13个行业

ALE不拍脑袋选领域,而是基于美国联邦职业分类SOC 2018 + O*NET,把有软件媒介工作流的职业全部纳入:

顶级领域 包含子领域(举例)
建筑与工程 土木工程、机械设计、电气工程、建筑工程
艺术与媒体 平面设计、视频编辑、3D建模、音乐制作
商业与金融 会计、财务分析、市场研究、投资银行
计算机与数学 软件开发、数据分析、网络安全、算法设计
教育 课程设计、教育技术、学术研究
法律 合同审查、案例研究、合规分析
生命科学 生物信息学、医学影像、药物发现
制造业 供应链、质量控制、生产规划

关键数字

  • 1,490+ 个已实现的任务实例
  • 55个子领域全部有覆盖(无一为零)
  • 13个顶级行业集群
  • 与250+行业专家合作开发

3.3 任务构造流程:五道关卡

不是 crowdsourcing,是专家提交真实完成过的项目

专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审

每道关卡都有淘汰率。最终入选的任务都是:

  • 专家真实做过的项目
  • 经过多轮质量控制的
  • 在真实VM上可执行的
  • 输出可自动评分的

四、为什么AI在真实工作流中集体失败?

4.1 长流程能力缺失

现有benchmark的问题:

  • SWE-Bench:修一个bug,平均改4.1个文件,但仍是单点任务
  • OSWorld:操作桌面,但每个任务通常几分钟到十几分钟
  • Terminal-Bench:终端操作,但也是短流程

ALE的任务:

  • 需要数小时到数周的真实专家工作
  • 涉及多软件协作(CLI + GUI + 浏览器 + 专业软件)
  • 需要专业判断(不是机械执行)
  • 输出是复杂交付物(报告、设计、模型、媒体文件)

4.2 跨工具编排是致命瓶颈

论文特别强调了Generalist Computer-Use Agent (GCUA)——必须同时掌握:

  • 视觉感知(看屏幕)
  • 代码执行(写脚本)
  • 工具使用(调用API/软件)
  • 长程规划(分解任务、执行、纠错)

当前AI的问题:每一步看起来都行,但串起来就崩

就像一个人会打字、会点击、会写代码,但让他"用SolidWorks把2D蓝图转成3D模型,然后出渲染图,再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。

4.3 领域专业知识鸿沟

现有benchmark(如SWE-Bench)测的是通用编程能力。但真实工作需要领域知识

  • 土木工程师知道什么结构是安全的
  • 会计知道什么税务规则适用
  • 视频编辑知道什么调色匹配当前场景

这些知识不是"写代码"能覆盖的。ALE的任务设计刻意包含了这类判断。


五、数据说话: leaderboard的残酷现实

5.1 整体通过率

难度级别 平均满分通过率
最简单 < 50%(最强配置Codex+GPT-5.5)
中等 约10-20%
最难 < 1% → 后来更新为2.6%

论文原文:"Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%."

5.2 与现有benchmark的对比

Benchmark 测什么 当前最高分 ALE的地位
SWE-Bench Pro 修GitHub bug 80.3% (Fable 5) ALE包含SWE-Bench类任务,但扩展了长流程和跨工具
OSWorld 桌面GUI操作 85.4% (Mythos Preview) ALE包含GUI操作,但扩展了CLI+GUI混合
Terminal-Bench 终端操作 88.0% (Fable 5) ALE包含终端任务,但扩展了多步工作流
Humanity's Last Exam 多学科推理 64.7% (Mythos Preview) ALE测的是"做事"而非"答题"

ALE是现有benchmark的超集:它的任务表面(task surface)覆盖了GUI-only benchmark(如OSWorld)和CLI-only benchmark(如Terminal-Bench),但在此基础上增加了长流程、跨工具、端到端交付的要求。


六、核心洞察:benchmark success ≠ GDP impact

6.1 "效用问题"(The Utility Problem)

论文提出了一个尖锐的诊断:

"AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."

benchmark胜利 ≠ 经济价值

ImageNet推动了计算机视觉的爆发,因为:

  1. 它是一个广泛认可的标准
  2. 饱和它意味着模型真的能"看懂"
  3. 看懂→可以部署到实际产品

但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了(多家80%+),但它只测"修bug"——这虽然是重要工作,但只是软件工程师工作的一小部分。

6.2 ALE的设计哲学:不是排行榜,是经济价值的测量仪

论文明确说:

"ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."

如果AI agent能pass ALE的"last exam",那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。

6.3 对行业的启示

对AI开发者

  • 别只盯着SWE-Bench和OSWorld了
  • 长流程、跨工具、领域知识的整合才是瓶颈
  • agent架构(planning、memory、tool use、error recovery)比模型能力更关键

对企业采购者

  • benchmark分数仅供参考,POC(概念验证)在真实工作流上跑才是硬道理
  • 关注agent的"长流程稳定性"而非"单点成功率"
  • 领域适配(fine-tuning + RAG + 工作流编排)可能比换模型更重要

对研究者

  • ALE是"living benchmark"——任务池会持续扩展
  • 13/55个子领域在现有benchmark中完全未被覆盖(Table 1 in paper)
  • 新领域(法律、金融、生命科学)可能是下一个突破点

七、局限与未来方向

作者诚实列出了ALE的局限:

  1. 物理世界缺失:ALE只覆盖"非物理"行业(软件媒介工作流),不涉及机器人、制造业物理操作等
  2. 验证难度:某些领域(如创意写作、设计审美)的客观评分仍然困难
  3. 动态环境:真实工作环境会变化(软件更新、规则调整),ALE的sandbox是静态的
  4. 安全性评估:ALE不测试agent在真实环境中的安全边界

未来方向:

  • 持续 onboarding 新行业和新工作流
  • 与安全、隐私、伦理评测结合
  • 探索"辅助模式"(human-in-the-loop)的评估

八、总结:为什么这篇论文重要?

三个核心贡献

1. 戳破了benchmark泡沫

80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明:当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强,是评测没有测到点子上

2. 提出了新的评测范式

  • 真实VM + 真实软件 + 真实数据
  • 端到端交付物 + 确定性自动评分
  • 覆盖55个子领域(基于联邦职业分类)

3. 指出了AI agent的真正瓶颈

不是单点能力(写代码、点GUI、搜网页),而是:

  • 长流程规划与执行
  • 跨工具编排
  • 领域专业知识整合
  • 错误恢复与自适应

一句话结论

Claude Fable 5在SWE-Bench上80%,在ALE上接近0%——不是因为模型变差了,是因为ALE测的是"做完整工作",而不是"修单个bug"。

AI的下一个里程碑不是在某项benchmark上再涨5个百分点,而是让满分通过率从0%变成有意义的数字。


参考文献

#AI评测 #AgentsLastExam #ClaudeFable5 #SWEBench #真实工作流 #AIagent #benchmark #UCBerkeley #AI能力 #长流程任务 #跨工具编排 #GDP影响 #AI经济价值 #模型评估 #行业应用 #AI现状

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录