LLM Agent 排行榜已死：IBM 团队用 149 队竞赛数据证明公开排名无法预测真实表现

> 一篇来自 IBM 的 position paper，用 149 支队伍的真实竞赛数据，把当前 LLM Agent 评测体系的底裤扒了。执行赛道公开排名和隐藏测试排名 Spearman 相关系数 ρ = -0.13——统计上与零无异。你花三个月优化的 Agent，排行榜上第一名，部署后可能连前十都进不了。

---

一、一颗炸弹：ρ = -0.13

论文开篇就扔了颗炸弹。

CODS-2025 竞赛（149 支队伍参加，基于 AssetOpsBench）的数据显示：

赛道	公开-隐藏排名 Spearman ρ	样本量	结论
执行赛道	ρ = -0.13	n=13	统计上与零无异 (p=0.71)
规划赛道	ρ = 0.69	n=20	正相关，但公共分数饱和（20 队只有 8 个不同分数）

这意味着什么？你在公开排行榜上花三个月优化的 Agent，部署后的真实表现跟随机猜差不多。

规划赛道虽然相关性还行（0.69），但有个致命问题：公开分数饱和——20 支队伍的分数只有 8 个唯一值，大量队伍被压缩在同一个分数上，排名变成了抽签。

作者的原话很克制，但杀伤力极强：

> "Aggregate scores do not predict what an operator would observe in deployment."

---

二、现有排行榜的三大结构性缺陷

缺陷一：总分折叠了正交维度

一个 Pass@1 = 0.75 的分数，可以由完全不同的配置达到：

配置 A：推理重、成本高——清晰度得分高，但 latency 爆炸
配置 B：检索丰富、latency 绑死——数据召回好，但 token 消耗大
配置 C：工具调用脆弱、但跨轮复用高效——单次通过率低，但多轮表现好

总分把它们视为等价，但部署时它们是完全不同的 trade-off。

论文举了三个具体案例：

1. 推理模式敏感度：reasoning-on vs reasoning-off 的总分 rubric mean 差不多，但清晰度维度差 31 个百分点（61% → 92%），幻觉率差 7pp（12% → 5%），数据检索和 agent 序列正确率却完全不变。总分掩盖了推理真正帮助和没有帮助的地方。

2. 多轮产物复用：Plan-Execute 和 Supervisor-Specialist 架构在单轮 Pass@1 上得分相近，但第 2-5 轮的 latency 差 4.2 倍——因为跨轮产物复用效率不同。单轮基准测试完全看不到这个维度。

3. 检索策略 trade-off：单次 RAG 准确率 50-68%，端到端 8.9-20s；多跳 Knowledge Plugin 准确率 ~90%，但 114-146s，token 膨胀 4.5-10 倍。没有单一最优解，选择取决于部署约束——而总分不告诉你这些。

缺陷二：LLM-as-Judge 是反射性的

LLM-as-Judge 本身就是一个有偏的测量工具。当 judge 模型进化时，排名会漂移；当 judge prompt 调整时，分数会移动。 leaderboard 测量的可能更多是它自己的 judge，而不是被测系统。

数据支持：

PHMForge benchmark：LLM-as-Judge 的 inter-rater reliability Krippendorff α = 0.61
人类-人类对比：同一批数据的 α ∈ [0.74, 0.82]
结论：LLM judge 比它要替代的人类专家还不可靠

两个独立的 judge-independent 验证方案证明了替代路径的可行性：

Condition Insight (O'Donncha et al., 2026)：CAR（Condition Agreement Rate）从 0.68 提升到 0.91——提升来自 prompt 设计，不是 backbone 模型选择
ARE/Gaia2 (Froger et al., 2025)：DAG oracle 验证，0.99 precision / 0.95 recall，450 条人工标注轨迹

缺陷三：分布外行为才是部署问题

部署系统遇到的不是训练集，也不是 leaderboard 测试集。它们遇到的是：

(i) 分布相似但 held-out 的场景
(ii) 分布完全不同的跨域场景
(iii) 用户措辞对抗性扰动的场景

样本内平均分对这三种情况都没有预测力。

Exgentic 的跨基准分析：六个异构基准的 rank correlation 0.32-0.85，结论直言："current architectures do not achieve robust generalization but instead optimize for specific task distributions."

---

三、12 层测量框架：从 HELM 的废墟上重建

论文的核心贡献是提出了一个 12 层测量框架，整合了 7 个现有基准和 14 个工业落地研究。

核心能力层（T1-T7，来自现有基准）

层级	维度	测量内容
T1	通过率底线	Pass@1, Pass@k 等基础指标
T2	工具调用规范	工具选择正确性、参数格式、错误处理
T3	规划过程质量	计划完整性、步骤合理性、可执行性
T4	能力轴	多维度能力分解（推理、检索、工具使用等）
T5	成本效率 Pareto	latency × token × accuracy 的联合优化
T6	失败模式分类	错误类型 taxonomy（幻觉、工具误用、规划失败等）
T7	可复现性	多次运行的一致性、确定性

部署延伸层（T8-T12，来自 14 个实现研究）

层级	维度	测量内容
T8	部署基础设施	容器化、MCP server 可用性、并发处理
T9	多轮对话	跨轮产物复用、上下文一致性、轮间漂移
T10	推理模式适应性	reasoning-on/off 的 per-dimension 敏感度
T11	知识增强	RAG vs Knowledge Plugin vs 微调的效果对比
T12	证据 grounding + judge-independent 验证	轨迹可验证性、人工标注 oracle、规则引擎交叉验证

关键发现：没有一个现有基准报告超过 4-5 个层级；部署延伸层（T8-T12）在几乎所有现有基准中完全缺失。

---

四、预测效度：用 ρ 代替平均分

论文提出的核心方法论转变：用预测效度（predictive validity）代替样本内平均分作为排名准则。

预测效度 = 样本内排名与样本外排名的 Spearman 相关系数

三种 OOD 偏移测试方法

方法	偏移强度	操作方式
Criterion A: Held-Out Scenarios	轻度	分层随机切分，保持子集和类别的联合分布
Criterion B: Cross-Subset Transfer	中度	在 k-1 个子集上排名，在 held-out 子集上测试；AssetOpsBench 6 个子集产生 6×6 rank-stability 矩阵
Criterion C: Adversarial Perturbation	强度	四种扰动：同义改写、标识符重命名、时间窗口偏移、干扰信息注入

预测效度分数（PV Score）

PV(c) = α * Ȳc - β * σYc,OOD - γ * IQR(Yc)

Ȳc：样本内平均分
σYc,OOD：跨 OOD 标准的排名位置标准差
IQR(Yc)：每场景分数的四分位距
α, β, γ：在 Criterion A holdouts 上拟合，以最大化 PV rank 与 Criterion B/C rank 的 Spearman 相关

作者没有最终确定权重——这是 position paper，具体拟合留给后续实证研究。

---

五、14 个实现研究：从不同角度验证同一组问题

论文聚合了 14 个并行实现研究，每个研究沿着单一轴线端到端修改架构。

5.1 推理模式：扩展思考的代价

配置：Gemma-4-26B planner，40 个多 agent AssetOpsBench 场景，vLLM on A100
结果：reasoning-on 总 latency +21.5%，规划 latency +41.9%
质量增益非均匀：清晰度 +31pp（61%→92%），幻觉 -7pp（12%→5%），但数据检索和 agent 序列正确率不变
教训：overall rubric mean 掩盖了 reasoning 的真正作用域；per-rubric sensitivity 必须报告

5.2 知识增强：RAG vs Knowledge Plugin

配置：Llama-4-Maverick-17B，10 个 AssetOpsBench 场景
RAG：准确率 50-68%，端到端 8.9-20s
Knowledge Plugin：准确率 ~90%，114-146s，token 膨胀 4.5-10 倍
跨模型对比：Granite-3-8B + Knowledge Plugin = 60% 准确率 @ 91s（弱模型 + 快路径 + 低 ceiling）
教训：没有单一最优解；检索策略（single-pass / multi-hop / hybrid）应该作为声明的提交维度

5.3 评估方法论：Judge-Independent 治理

三个独立研究共同指向同一个结论：LLM-as-Judge 需要外部锚点。

研究	方法	结果
Condition Insight	CAR vs 规则引擎	CAR 0.68 → 0.91（prompt 设计带来的提升）
ARE/Gaia2	DAG oracle	0.99 precision / 0.95 recall
PHMForge	LLM judge α	α = 0.61（远低于人类 0.74-0.82）

5.4 评估方法论：Substrate Underspecification

PHMForge benchmark（99 个 SME 编写的预测维护场景，39 个 algorithm-grounded MCP tools）的消融实验：

消融	影响
MCP tool execution → text-RAG	锂电池剩余寿命 pass-all-3 从 100% → 20%
跨设备迁移（轴承 → 电机）	pass rate 84.1% → 42.7%，差 41 点
操作员式模糊查询	80.6% → 48.6% (McNemar p=0.002)
移除领域工具	80.8% → 25%

核心洞察：orchestration errors 主导失败；frontier LLMs "stronger at calling tools than at planning when to call them."

---

六、可证伪条件：论文给自己设的套

作者很诚实地给出了四个可证伪条件——如果实证研究不支持，就认栽：

条件	阈值	含义
1. In-sample vs OOD 排名 Spearman ρ	< 0.85（至少两个标准）	如果 >0.85，泛化很好，我们的担忧多余
2. Top-3 跌出 Top-5 的比例	≥ 10%	如果 <10%，Top-3 推荐可靠
3. Mean vs OOD-variance 相关 ρPearson	> 0.2	如果 ≤0.2，高分配置不必然更稳定
4. PV-ranking vs Mean-ranking Top-10 Jaccard	< 0.85	如果 ≥0.85，新方法没有提供不同建议

第一个条件已经被部分支持：CODS-2025 执行赛道 ρ = -0.13，远低于 0.85 阈值。其余条件需要后续对照实验。

---

七、一句话总结

这篇论文不是提出一个新的 SOTA 模型，而是对整个 LLM Agent 评测领域的方法论宣战。它的核心主张可以压缩成一句话：

> 当前排行榜的总分排名，系统性地低估了部署场景的维度复杂度；我们应该用预测效度（样本内排名对样本外排名的相关性）代替样本内平均分，并报告 12 个正交维度而非一个总分。

这听起来像是评估领域的"苦涩教训"——就像 Rich Sutton 说 "人类知识的长远价值被严重低估"一样，这篇论文在说：人类设计的单一分数排行榜，长远来看会被多维预测效度框架取代。

---

参考信息

论文：https://arxiv.org/abs/2606.19704
作者：Dhaval C. Patel 等，IBM 研究院
通讯作者：pateldha@us.ibm.com
核心数据：CODS-2025 竞赛 149 队，执行赛道 ρ=-0.13，规划赛道 ρ=0.69
基准：AssetOpsBench（1600+ GitHub stars，230+ forks，EMNLP/NeurIPS/AAAI 发表）
关键概念：预测效度（Predictive Validity）、12 层测量框架、LLM-as-Judge 反射性、Judge-Independent 验证
可证伪条件：4 个，第一个已被部分支持

---

*这篇论文让我想起了 2019 年 Recht et al. 的 ImageNet 分布偏移研究——当时也是用数据说话，证明了 leaderboard 分数在 modest distributional shift 下就会崩塌。六年过去了，同样的问题在 Agent 时代以更极端的形式重现。ρ = -0.13 这个数字应该被裱起来，挂在每个做 Agent 评测的团队的墙上。它说：你优化的可能不是真实能力，而是对特定测试分布的过拟合。*

#AI论文 #LLM评测 #Agent评测 #IBM #预测效度 #排行榜 #AssetOpsBench #CODS2025