LLM Agent 排行榜已死:IBM 团队用 149 队竞赛数据证明公开排名无法预测真实表现
> 一篇来自 IBM 的 position paper,用 149 支队伍的真实竞赛数据,把当前 LLM Agent 评测体系的底裤扒了。执行赛道公开排名和隐藏测试排名 Spearman 相关系数 ρ = -0.13——统计上与零无异。你花三个月优化的 Agent,排行榜上第一名,部署后可能连前十都进不了。
---
一、一颗炸弹:ρ = -0.13
论文开篇就扔了颗炸弹。
CODS-2025 竞赛(149 支队伍参加,基于 AssetOpsBench)的数据显示:
| 赛道 | 公开-隐藏排名 Spearman ρ | 样本量 | 结论 |
|---|---|---|---|
| 执行赛道 | ρ = -0.13 | n=13 | 统计上与零无异 (p=0.71) |
| 规划赛道 | ρ = 0.69 | n=20 | 正相关,但公共分数饱和(20 队只有 8 个不同分数) |
规划赛道虽然相关性还行(0.69),但有个致命问题:公开分数饱和——20 支队伍的分数只有 8 个唯一值,大量队伍被压缩在同一个分数上,排名变成了抽签。
作者的原话很克制,但杀伤力极强:
> "Aggregate scores do not predict what an operator would observe in deployment."
---
二、现有排行榜的三大结构性缺陷
缺陷一:总分折叠了正交维度
一个 Pass@1 = 0.75 的分数,可以由完全不同的配置达到:
- 配置 A:推理重、成本高——清晰度得分高,但 latency 爆炸
- 配置 B:检索丰富、latency 绑死——数据召回好,但 token 消耗大
- 配置 C:工具调用脆弱、但跨轮复用高效——单次通过率低,但多轮表现好
论文举了三个具体案例:
1. 推理模式敏感度:reasoning-on vs reasoning-off 的总分 rubric mean 差不多,但清晰度维度差 31 个百分点(61% → 92%),幻觉率差 7pp(12% → 5%),数据检索和 agent 序列正确率却完全不变。总分掩盖了推理真正帮助和没有帮助的地方。
2. 多轮产物复用:Plan-Execute 和 Supervisor-Specialist 架构在单轮 Pass@1 上得分相近,但第 2-5 轮的 latency 差 4.2 倍——因为跨轮产物复用效率不同。单轮基准测试完全看不到这个维度。
3. 检索策略 trade-off:单次 RAG 准确率 50-68%,端到端 8.9-20s;多跳 Knowledge Plugin 准确率 ~90%,但 114-146s,token 膨胀 4.5-10 倍。没有单一最优解,选择取决于部署约束——而总分不告诉你这些。
缺陷二:LLM-as-Judge 是反射性的
LLM-as-Judge 本身就是一个有偏的测量工具。当 judge 模型进化时,排名会漂移;当 judge prompt 调整时,分数会移动。 leaderboard 测量的可能更多是它自己的 judge,而不是被测系统。
数据支持:
- PHMForge benchmark:LLM-as-Judge 的 inter-rater reliability Krippendorff α = 0.61
- 人类-人类对比:同一批数据的 α ∈ [0.74, 0.82]
- 结论:LLM judge 比它要替代的人类专家还不可靠
- Condition Insight (O'Donncha et al., 2026):CAR(Condition Agreement Rate)从 0.68 提升到 0.91——提升来自 prompt 设计,不是 backbone 模型选择
- ARE/Gaia2 (Froger et al., 2025):DAG oracle 验证,0.99 precision / 0.95 recall,450 条人工标注轨迹
缺陷三:分布外行为才是部署问题
部署系统遇到的不是训练集,也不是 leaderboard 测试集。它们遇到的是:
- (i) 分布相似但 held-out 的场景
- (ii) 分布完全不同的跨域场景
- (iii) 用户措辞对抗性扰动的场景
Exgentic 的跨基准分析:六个异构基准的 rank correlation 0.32-0.85,结论直言:"current architectures do not achieve robust generalization but instead optimize for specific task distributions."
---
三、12 层测量框架:从 HELM 的废墟上重建
论文的核心贡献是提出了一个 12 层测量框架,整合了 7 个现有基准和 14 个工业落地研究。
核心能力层(T1-T7,来自现有基准)
| 层级 | 维度 | 测量内容 |
|---|---|---|
| T1 | 通过率底线 | Pass@1, Pass@k 等基础指标 |
| T2 | 工具调用规范 | 工具选择正确性、参数格式、错误处理 |
| T3 | 规划过程质量 | 计划完整性、步骤合理性、可执行性 |
| T4 | 能力轴 | 多维度能力分解(推理、检索、工具使用等) |
| T5 | 成本效率 Pareto | latency × token × accuracy 的联合优化 |
| T6 | 失败模式分类 | 错误类型 taxonomy(幻觉、工具误用、规划失败等) |
| T7 | 可复现性 | 多次运行的一致性、确定性 |
部署延伸层(T8-T12,来自 14 个实现研究)
| 层级 | 维度 | 测量内容 |
|---|---|---|
| T8 | 部署基础设施 | 容器化、MCP server 可用性、并发处理 |
| T9 | 多轮对话 | 跨轮产物复用、上下文一致性、轮间漂移 |
| T10 | 推理模式适应性 | reasoning-on/off 的 per-dimension 敏感度 |
| T11 | 知识增强 | RAG vs Knowledge Plugin vs 微调的效果对比 |
| T12 | 证据 grounding + judge-independent 验证 | 轨迹可验证性、人工标注 oracle、规则引擎交叉验证 |
---
四、预测效度:用 ρ 代替平均分
论文提出的核心方法论转变:用预测效度(predictive validity)代替样本内平均分作为排名准则。
预测效度 = 样本内排名与样本外排名的 Spearman 相关系数
三种 OOD 偏移测试方法
| 方法 | 偏移强度 | 操作方式 |
|---|---|---|
| Criterion A: Held-Out Scenarios | 轻度 | 分层随机切分,保持子集和类别的联合分布 |
| Criterion B: Cross-Subset Transfer | 中度 | 在 k-1 个子集上排名,在 held-out 子集上测试;AssetOpsBench 6 个子集产生 6×6 rank-stability 矩阵 |
| Criterion C: Adversarial Perturbation | 强度 | 四种扰动:同义改写、标识符重命名、时间窗口偏移、干扰信息注入 |
预测效度分数(PV Score)
PV(c) = α * Ȳc - β * σYc,OOD - γ * IQR(Yc)
- Ȳc:样本内平均分
- σYc,OOD:跨 OOD 标准的排名位置标准差
- IQR(Yc):每场景分数的四分位距
- α, β, γ:在 Criterion A holdouts 上拟合,以最大化 PV rank 与 Criterion B/C rank 的 Spearman 相关
---
五、14 个实现研究:从不同角度验证同一组问题
论文聚合了 14 个并行实现研究,每个研究沿着单一轴线端到端修改架构。
5.1 推理模式:扩展思考的代价
- 配置:Gemma-4-26B planner,40 个多 agent AssetOpsBench 场景,vLLM on A100
- 结果:reasoning-on 总 latency +21.5%,规划 latency +41.9%
- 质量增益非均匀:清晰度 +31pp(61%→92%),幻觉 -7pp(12%→5%),但数据检索和 agent 序列正确率不变
- 教训:overall rubric mean 掩盖了 reasoning 的真正作用域;per-rubric sensitivity 必须报告
5.2 知识增强:RAG vs Knowledge Plugin
- 配置:Llama-4-Maverick-17B,10 个 AssetOpsBench 场景
- RAG:准确率 50-68%,端到端 8.9-20s
- Knowledge Plugin:准确率 ~90%,114-146s,token 膨胀 4.5-10 倍
- 跨模型对比:Granite-3-8B + Knowledge Plugin = 60% 准确率 @ 91s(弱模型 + 快路径 + 低 ceiling)
- 教训:没有单一最优解;检索策略(single-pass / multi-hop / hybrid)应该作为声明的提交维度
5.3 评估方法论:Judge-Independent 治理
三个独立研究共同指向同一个结论:LLM-as-Judge 需要外部锚点。
| 研究 | 方法 | 结果 |
|---|---|---|
| Condition Insight | CAR vs 规则引擎 | CAR 0.68 → 0.91(prompt 设计带来的提升) |
| ARE/Gaia2 | DAG oracle | 0.99 precision / 0.95 recall |
| PHMForge | LLM judge α | α = 0.61(远低于人类 0.74-0.82) |
5.4 评估方法论:Substrate Underspecification
PHMForge benchmark(99 个 SME 编写的预测维护场景,39 个 algorithm-grounded MCP tools)的消融实验:
| 消融 | 影响 |
|---|---|
| MCP tool execution → text-RAG | 锂电池剩余寿命 pass-all-3 从 100% → 20% |
| 跨设备迁移(轴承 → 电机) | pass rate 84.1% → 42.7%,差 41 点 |
| 操作员式模糊查询 | 80.6% → 48.6% (McNemar p=0.002) |
| 移除领域工具 | 80.8% → 25% |
---
六、可证伪条件:论文给自己设的套
作者很诚实地给出了四个可证伪条件——如果实证研究不支持,就认栽:
| 条件 | 阈值 | 含义 |
|---|---|---|
| 1. In-sample vs OOD 排名 Spearman ρ | < 0.85(至少两个标准) | 如果 >0.85,泛化很好,我们的担忧多余 |
| 2. Top-3 跌出 Top-5 的比例 | ≥ 10% | 如果 <10%,Top-3 推荐可靠 |
| 3. Mean vs OOD-variance 相关 ρPearson | > 0.2 | 如果 ≤0.2,高分配置不必然更稳定 |
| 4. PV-ranking vs Mean-ranking Top-10 Jaccard | < 0.85 | 如果 ≥0.85,新方法没有提供不同建议 |
---
七、一句话总结
这篇论文不是提出一个新的 SOTA 模型,而是对整个 LLM Agent 评测领域的方法论宣战。它的核心主张可以压缩成一句话:
> 当前排行榜的总分排名,系统性地低估了部署场景的维度复杂度;我们应该用预测效度(样本内排名对样本外排名的相关性)代替样本内平均分,并报告 12 个正交维度而非一个总分。
这听起来像是评估领域的"苦涩教训"——就像 Rich Sutton 说 "人类知识的长远价值被严重低估"一样,这篇论文在说:人类设计的单一分数排行榜,长远来看会被多维预测效度框架取代。
---
参考信息
- 论文:https://arxiv.org/abs/2606.19704
- 作者:Dhaval C. Patel 等,IBM 研究院
- 通讯作者:pateldha@us.ibm.com
- 核心数据:CODS-2025 竞赛 149 队,执行赛道 ρ=-0.13,规划赛道 ρ=0.69
- 基准:AssetOpsBench(1600+ GitHub stars,230+ forks,EMNLP/NeurIPS/AAAI 发表)
- 关键概念:预测效度(Predictive Validity)、12 层测量框架、LLM-as-Judge 反射性、Judge-Independent 验证
- 可证伪条件:4 个,第一个已被部分支持
*这篇论文让我想起了 2019 年 Recht et al. 的 ImageNet 分布偏移研究——当时也是用数据说话,证明了 leaderboard 分数在 modest distributional shift 下就会崩塌。六年过去了,同样的问题在 Agent 时代以更极端的形式重现。ρ = -0.13 这个数字应该被裱起来,挂在每个做 Agent 评测的团队的墙上。它说:你优化的可能不是真实能力,而是对特定测试分布的过拟合。*
#AI论文 #LLM评测 #Agent评测 #IBM #预测效度 #排行榜 #AssetOpsBench #CODS2025
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens