一句话:UC Berkeley联合250+行业专家打造的Agents' Last Exam揭露了AI评测的残酷真相——在SWE-Bench上横扫80%的顶级编程AI,面对1490个真实工作流时,27个配置中有24个满分通过率是0%。 benchmark高分≠能干活。
🔗 核心信息
- 论文:Agents' Last Exam (ALE), arXiv:2606.05405
- 机构:UC Berkeley RDI × 250+行业专家
- 规模:55个子领域、13个行业集群、1,490+真实任务实例
- 官网:https://agents-last-exam.org/
- Leaderboard:https://agents-last-exam.org/leaderboard
一、一个反常识的发现
2026年6月,Anthropic发布了Claude Fable 5——被业界称为"神话级"编程模型。
它的benchmark成绩单堪称华丽:
| Benchmark | Claude Fable 5 | 业界水平 |
|---|---|---|
| SWE-Bench Pro | 80.3% | GPT-5.5: 58.6% |
| Terminal-Bench 2.1 | 88.0% | Codex CLI: 83.4% |
| OSWorld-Verified | 85.0% | GPT-5.5: 78.7% |
| Humanity's Last Exam (with tools) | 64.5% | GPT-5.5: 52.2% |
但在加州大学伯克利分校最新发布的 Agents' Last Exam (ALE) 上:
满分通过率:接近0%
不是Fable 5一个模型的问题。在包含1490个真实工作流的测试中,27个顶级AI配置里有 24个满分通过率是0% 。包括Claude Fable 5、Claude Opus 4.7、GPT-5.5等业界最强组合,都在真实项目面前集体溃败。
论文原文:"across mainstream harness and backbone configurations, the average full pass rate is below 1%"(后来更新为2.6%)。
最强配置(Codex + GPT-5.5)在Terminal-Bench上82%,但在ALE最简单级别不到50%,最难级别不到10%。
二、为什么现有benchmark不能反映真实能力?
2.1 当前benchmark的三大结构性缺陷
论文指出了一个根本问题:现有的benchmark在"真实性"、"覆盖广度"、"可验证性"三者之间做了不可接受的取舍。
| 维度 | 现有benchmark的问题 | ALE的解法 |
|---|---|---|
| 真实性 | 用简化环境或纯问答,脱离真实工作场景 | 真实VM + 真实专业软件 + 真实数据文件 |
| 覆盖广度 | 聚焦单一领域(代码、网页、桌面) | 55个子领域、13个行业集群,基于美国SOC 2018职业分类 |
| 可验证性 | 依赖人工判断或主观评分 | 结构化交付物 + 确定性自动评分 |
2.2 典型案例:benchmark高分的幻觉
案例1:SWE-Bench Pro的"脚手架泡沫"
Claude Fable 5在SWE-Bench Pro上80.3%,但这是Anthropic自己搭建的scaffold(脚手架/工具链)跑出来的。在Scale AI的标准化SEAL leaderboard上,GPT-5.4 xHigh才59.1%,Claude Opus 4.6 thinking才51.9%。
同一个模型,不同scaffold,分数差20-30个百分点。
案例2:Berkeley自己打破benchmark
2026年4月,Berkeley RDI发布了一篇论文:用单字符修改就能在某些顶级benchmark上拿到100%分数,而根本没真正解决任务。890个任务,一个字符就"通关"。
这说明很多benchmark测的不是"能力",是"模式匹配"。
案例3:OSWorld的启示
OSWorld(真实桌面环境benchmark)是目前公认的"最难作假"的测试。人类基线约72-75%,Coasty agent做到82%。但OSWorld只是GUI操作,不涉及跨工具、跨文件、长流程的完整工作流。
ALE = OSWorld + Terminal-Bench + 跨工具编排 + 端到端交付 + 行业专业知识。是超集。
三、ALE到底测什么?
3.1 设计原则:三个硬性门槛
论文定义了三个准入标准,不满足就淘汰:
1. 代表性(Representativeness)
- 必须匹配真实专业实践
- 必须使用领域专家实际使用的软件
- ❌ 反例:"在DaVinci里加个滤镜"——太简单,只是单个操作
- ✅ 正例:"把奔跑的猎豹合成到另一个赛车视频里"——需要跟踪、遮罩、合成、调色匹配
2. 复杂度(Complexity)
- 必须是端到端可交付的成果
- 专家需要花费大量时间(数小时到数周)
- 不是"操作",是"工作流"
3. 可验证性(Verifiability)
- 输出必须能确定性检查
- 要么直接和参考输出比对,要么有明确评分标准
- ❌ 反例:"设计一个带怪物的RPG游戏"——太主观
- ✅ 正例:"用RPGMaker XP复刻mota.exe"——地图几何、角色属性、事件状态都能自动比对
3.2 覆盖范围:55个子领域、13个行业
ALE不拍脑袋选领域,而是基于美国联邦职业分类SOC 2018 + O*NET,把有软件媒介工作流的职业全部纳入:
| 顶级领域 | 包含子领域(举例) |
|---|---|
| 建筑与工程 | 土木工程、机械设计、电气工程、建筑工程 |
| 艺术与媒体 | 平面设计、视频编辑、3D建模、音乐制作 |
| 商业与金融 | 会计、财务分析、市场研究、投资银行 |
| 计算机与数学 | 软件开发、数据分析、网络安全、算法设计 |
| 教育 | 课程设计、教育技术、学术研究 |
| 法律 | 合同审查、案例研究、合规分析 |
| 生命科学 | 生物信息学、医学影像、药物发现 |
| 制造业 | 供应链、质量控制、生产规划 |
关键数字:
- 1,490+ 个已实现的任务实例
- 55个子领域全部有覆盖(无一为零)
- 13个顶级行业集群
- 与250+行业专家合作开发
3.3 任务构造流程:五道关卡
不是 crowdsourcing,是专家提交真实完成过的项目:
专家提交 → 初筛 → 工程实现 → 工程师 dry-run → 专家委员会终审
每道关卡都有淘汰率。最终入选的任务都是:
- 专家真实做过的项目
- 经过多轮质量控制的
- 在真实VM上可执行的
- 输出可自动评分的
四、为什么AI在真实工作流中集体失败?
4.1 长流程能力缺失
现有benchmark的问题:
- SWE-Bench:修一个bug,平均改4.1个文件,但仍是单点任务
- OSWorld:操作桌面,但每个任务通常几分钟到十几分钟
- Terminal-Bench:终端操作,但也是短流程
ALE的任务:
- 需要数小时到数周的真实专家工作
- 涉及多软件协作(CLI + GUI + 浏览器 + 专业软件)
- 需要专业判断(不是机械执行)
- 输出是复杂交付物(报告、设计、模型、媒体文件)
4.2 跨工具编排是致命瓶颈
论文特别强调了Generalist Computer-Use Agent (GCUA)——必须同时掌握:
- 视觉感知(看屏幕)
- 代码执行(写脚本)
- 工具使用(调用API/软件)
- 长程规划(分解任务、执行、纠错)
当前AI的问题:每一步看起来都行,但串起来就崩。
就像一个人会打字、会点击、会写代码,但让他"用SolidWorks把2D蓝图转成3D模型,然后出渲染图,再写一份技术文档"——他会卡在第一步和第二步之间的衔接上。
4.3 领域专业知识鸿沟
现有benchmark(如SWE-Bench)测的是通用编程能力。但真实工作需要领域知识:
- 土木工程师知道什么结构是安全的
- 会计知道什么税务规则适用
- 视频编辑知道什么调色匹配当前场景
这些知识不是"写代码"能覆盖的。ALE的任务设计刻意包含了这类判断。
五、数据说话: leaderboard的残酷现实
5.1 整体通过率
| 难度级别 | 平均满分通过率 |
|---|---|
| 最简单 | < 50%(最强配置Codex+GPT-5.5) |
| 中等 | 约10-20% |
| 最难 | < 1% → 后来更新为2.6% |
论文原文:"Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is below 1%."
5.2 与现有benchmark的对比
| Benchmark | 测什么 | 当前最高分 | ALE的地位 |
|---|---|---|---|
| SWE-Bench Pro | 修GitHub bug | 80.3% (Fable 5) | ALE包含SWE-Bench类任务,但扩展了长流程和跨工具 |
| OSWorld | 桌面GUI操作 | 85.4% (Mythos Preview) | ALE包含GUI操作,但扩展了CLI+GUI混合 |
| Terminal-Bench | 终端操作 | 88.0% (Fable 5) | ALE包含终端任务,但扩展了多步工作流 |
| Humanity's Last Exam | 多学科推理 | 64.7% (Mythos Preview) | ALE测的是"做事"而非"答题" |
ALE是现有benchmark的超集:它的任务表面(task surface)覆盖了GUI-only benchmark(如OSWorld)和CLI-only benchmark(如Terminal-Bench),但在此基础上增加了长流程、跨工具、端到端交付的要求。
六、核心洞察:benchmark success ≠ GDP impact
6.1 "效用问题"(The Utility Problem)
论文提出了一个尖锐的诊断:
"AI systems have cleared one celebrated benchmark after another... Yet by the metric that ultimately matters, economic output, the broader impact has remained surprisingly muted."
benchmark胜利 ≠ 经济价值
ImageNet推动了计算机视觉的爆发,因为:
- 它是一个广泛认可的标准
- 饱和它意味着模型真的能"看懂"
- 看懂→可以部署到实际产品
但AI agent领域还没有这样的benchmark。SWE-Bench Pro饱和了(多家80%+),但它只测"修bug"——这虽然是重要工作,但只是软件工程师工作的一小部分。
6.2 ALE的设计哲学:不是排行榜,是经济价值的测量仪
论文明确说:
"ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact."
如果AI agent能pass ALE的"last exam",那意味着它真的能承担持续、有价值的职业工作——而不只是在某个narrow benchmark上刷分。
6.3 对行业的启示
对AI开发者:
- 别只盯着SWE-Bench和OSWorld了
- 长流程、跨工具、领域知识的整合才是瓶颈
- agent架构(planning、memory、tool use、error recovery)比模型能力更关键
对企业采购者:
- benchmark分数仅供参考,POC(概念验证)在真实工作流上跑才是硬道理
- 关注agent的"长流程稳定性"而非"单点成功率"
- 领域适配(fine-tuning + RAG + 工作流编排)可能比换模型更重要
对研究者:
- ALE是"living benchmark"——任务池会持续扩展
- 13/55个子领域在现有benchmark中完全未被覆盖(Table 1 in paper)
- 新领域(法律、金融、生命科学)可能是下一个突破点
七、局限与未来方向
作者诚实列出了ALE的局限:
- 物理世界缺失:ALE只覆盖"非物理"行业(软件媒介工作流),不涉及机器人、制造业物理操作等
- 验证难度:某些领域(如创意写作、设计审美)的客观评分仍然困难
- 动态环境:真实工作环境会变化(软件更新、规则调整),ALE的sandbox是静态的
- 安全性评估:ALE不测试agent在真实环境中的安全边界
未来方向:
- 持续 onboarding 新行业和新工作流
- 与安全、隐私、伦理评测结合
- 探索"辅助模式"(human-in-the-loop)的评估
八、总结:为什么这篇论文重要?
三个核心贡献
1. 戳破了benchmark泡沫
80%的SWE-Bench ≠ 能干活。ALE用1490个真实工作流证明:当前最强AI在复杂职业任务面前仍然接近无能。这不是模型不够强,是评测没有测到点子上。
2. 提出了新的评测范式
- 真实VM + 真实软件 + 真实数据
- 端到端交付物 + 确定性自动评分
- 覆盖55个子领域(基于联邦职业分类)
3. 指出了AI agent的真正瓶颈
不是单点能力(写代码、点GUI、搜网页),而是:
- 长流程规划与执行
- 跨工具编排
- 领域专业知识整合
- 错误恢复与自适应
一句话结论
Claude Fable 5在SWE-Bench上80%,在ALE上接近0%——不是因为模型变差了,是因为ALE测的是"做完整工作",而不是"修单个bug"。
AI的下一个里程碑不是在某项benchmark上再涨5个百分点,而是让满分通过率从0%变成有意义的数字。
参考文献
- Sun, Yiyou et al. "Agents' Last Exam." arXiv:2606.05405 (2026). UC Berkeley RDI.
- SWE-Bench Pro: https://www.swe-bench.com/
- OSWorld: https://os-world.github.io/
- Terminal-Bench: https://terminal-bench.com/
- Berkeley RDI "How We Broke Top AI Agent Benchmarks" (April 2026)
- Anthropic Claude Fable 5 Launch (June 9, 2026)
- Scale AI SEAL Leaderboard: https://scale.com/leaderboard
#AI评测 #AgentsLastExam #ClaudeFable5 #SWEBench #真实工作流 #AIagent #benchmark #UCBerkeley #AI能力 #长流程任务 #跨工具编排 #GDP影响 #AI经济价值 #模型评估 #行业应用 #AI现状
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。