> 现有基准测试就像让运动员跑100米冲刺,然后判断谁适合跑马拉松。AutoLab是第一个让AI跑马拉松的测试场——不是看它第一枪多快,而是看它在第20圈时还在不在跑道上。评测结果出人意料:GPT-5.4和DeepSeek-V4-Pro这些短跑冠军,在马拉松里要么跑了一半就坐下休息,要么跑到虚脱也没到终点。真正赢的不是最强壮的那个,而是那个最懂得配速的。
---
一、为什么需要AutoLab:现有基准测试的盲区
1.1 短跑 vs 马拉松
当前AI基准测试的盲区非常明显:
| 现有测试类型 | 代表基准 | 测试时长 | 核心问题 |
|---|---|---|---|
| 静态问答 | MMLU, GSM8K | 秒级 | 测知识,不测行动 |
| 单次编码 | HumanEval, MBPP | 分钟级 | 测一次写对的能力 |
| 短程Agent | SWE-Bench, OSWorld | 分钟到小时 | 测完成一个任务,不测持续改进 |
| 长程优化 | AlphaEvolve, AutoResearch | 小时级 | 但与特定模型/工具强耦合,无法横向比较 |
1.2 AutoLab的三条设计原则
作者明确提出三个核心设计承诺:
1. 超长周期(Ultra Long-Horizon):任务需要持续迭代,而非单次补丁。每个任务在严格时钟预算内运行(1-12小时不等)。 2. 连续且校准的评分(Continuous and Calibrated):超越通过/失败,支持跨异质指标(运行时间、困惑度、参数量)的细粒度比较,且抗饱和。 3. 防作弊(Hack-Resistant):性能基准比补丁式基准暴露更大的攻击面,必须有严格的反作弊机制。
---
二、36个任务:四大赛道的真实工程挑战
2.1 任务分类全景
| 类别 | 任务数 | 核心挑战 | 代表任务 | 预算 |
|---|---|---|---|---|
| 系统优化 | 15 | 代码性能最大化 | AES-128加速、Flash Attention优化、FFT、哈希连接 | 1-4h |
| 谜题挑战 | 10 | 算法/组合优化 | 排序网络、VLIW调度、对抗性Splay树、最小化游戏玩家 | 1-8h |
| 模型开发 | 7 | ML模型训练与调优 | Scaling Law预测、OCR微调、LoRA训练、GRPO多源 | 4-12h |
| CUDA核优化 | 4 | GPU内核手写优化 | Huffman解码、ICP对应点、NTT蝶形、MSM椭圆曲线 | 1-4h |
2.2 任务设计哲学:正确但次优的基线
每个任务都提供一个正确运行但故意次优的基线(baseline)。Agent的任务是在固定时钟预算内,通过迭代优化超越这个基线,达到或接近参考(reference)水平。
以Flash Attention为例:
- 基线:naive实现,运行时间约750ms
- 参考:优化实现,约100ms(7.5倍加速)
- 最优:Claude-Opus-4.6最终达到18ms(42.4倍加速)
- 预算:40分钟 wall-clock 时间
- 基线:Pythia-14M风格架构,WikiText-103困惑度约95
- 参考:Llama-2风格179M参数,困惑度约23
- 预算:12小时,单H100
2.3 任务难度分层
每个任务标注Tier 1或Tier 2:
- Tier 1:相对直接,主要考验优化策略和执行力
- Tier 2:需要领域知识、创造性算法设计或复杂权衡
三、17个模型大比拼:谁能在马拉松中存活
3.1 总体排名:Claude-Opus-4.6的统治地位
11个旗舰模型(每个厂商选一个):
| 排名 | 模型 | Avg@3 | Best@3 | Dominance | 相对Claude差距 |
|---|---|---|---|---|---|
| 1 | Claude-Opus-4.6 | 0.68 | 0.76 | 0.93 | - |
| 2 | Gemini-3.1-Pro | 0.50 | 0.59 | 0.62 | -36% |
| 3 | Kimi-K2.6 | 0.46 | 0.60 | 0.62 | -47% |
| 4 | MiMo-V2.5-Pro | 0.45 | 0.58 | 0.53 | -52% |
| 5 | GLM-5 | 0.43 | 0.55 | 0.57 | -55% |
| 6 | DeepSeek-V4-Pro | 0.38 | 0.51 | 0.47 | -65% |
| 7 | GPT-5.4 | 0.36 | 0.53 | 0.39 | -68% |
| 8 | Grok-4-20 | 0.35 | 0.44 | 0.42 | -71% |
| 9 | Hunyuan-3-Preview | 0.31 | 0.45 | 0.34 | -75% |
| 10 | MiniMax-M2.7 | 0.27 | 0.43 | 0.28 | -79% |
| 11 | Qwen-3.6-Plus | 0.27 | 0.39 | 0.32 | -79% |
- Claude-Opus-4.6在所有4个子类别都排名第一,是唯一做到全领域领先
- Dominance=0.93意味着在93%的头对头比较中,Claude要么赢要么打平
- 第二名与第一名的差距(0.18绝对分,36%相对)大于第二名与第六名的差距
3.2 分领域表现:CUDA是所有人的噩梦
| 领域 | Claude | 第二名 | 领域特点 |
|---|---|---|---|
| 系统优化 | 0.67 | Gemini 0.49 | 最均衡,但FFT-Rust Claude得0分(Rust可能是Claude的盲区) |
| 谜题挑战 | 0.85 | Gemini 0.72 | Claude最强领域,Discover Sorting、Stack Machine Golf、VLIW Scheduler全满分 |
| 模型开发 | 0.63 | Claude自己 | 内部差距大,Multilingual OCR 0.89 vs LLM Online Serving 0.00 |
| CUDA优化 | 0.38 | Kimi 0.25 | 所有人分数都低,最高仅0.38,说明GPU内核优化仍是人类专家领域 |
- 4个CUDA任务中,MSM Pippenger(椭圆曲线多标量乘法)几乎所有人挂零
- 只有Claude-Opus-4.6在Huffman Decode(0.45)和ICP Correspondence(0.55)上取得有意义分数
- 这提示:手写GPU内核优化仍是LLM的盲区,需要专门的训练或工具支持
3.3 代际对比:新模型一定更强吗?
作者对比了4个厂商的代际提升(老版本→新版本):
| 厂商 | 老版 | 新版 | Avg@3变化 | Best@3变化 | 结论 |
|---|---|---|---|---|---|
| MiMo | V2-Pro | V2.5-Pro | +0.08 | +0.07 | 稳步提升 |
| MiniMax | M2.5 | M2.7 | +0.03 | +0.07 | 小幅提升 |
| Kimi | K2.5 | K2.6 | +0.06 | +0.06 | 稳步提升 |
| Qwen | 3.5-Plus | 3.6-Plus | -0.09 | -0.12 | 倒退! |
---
四、反作弊设计:如何防止AI"刷题"
性能基准测试比通过/失败测试更容易被"作弊"——因为Agent可以偷看测试用例、硬编码答案、甚至修改评分脚本。AutoLab设计了五层防御:
4.1 密封验证器(Sealed Verifiers)
- 原理:Agent在开发时只能看到本地评估脚本,但最终评分使用的测试输入和参考输出永远不可见
- 机制:两阶段评估——本地脚本提供反馈,密封验证器计算最终得分
- 目的:防止Agent硬编码预期输出或逆向测试套件
4.2 正确性门(Correctness Gates)
- 原理:ML任务必须通过正确性门,优化指标才被记录
- 关键细节:门的输入来自与开发期完全不相交的分布
- 案例:
grpo_multisource任务中,如果通用VQA准确率相对基线下降超过10%,得分归零——防止灾难性遗忘的作弊策略
4.3 SHA固定不可变文件(SHA-Pinned Immutable Files)
- 原理:关键文件用SHA哈希固定,任何未授权修改立即得零分
- 范围:保护参考解、核心评估基础设施、评分函数
- 目的:防止Agent修改测试脚本或参考答案
4.4 对抗审计(Adversarial Auditing)
- 原理:专门的对抗Agent被显式提示去发现和利用捷径
- 过程:在任务构建期间运行,尝试不通过真正改进就解决任务
- 结果:能被对抗Agent"投机取巧"解决的任务会被修补或移除
- 持续:"持续分析不同模型的Agent轨迹,发现新的奖励黑客或验证器利用时,修补验证器并重新验证受影响任务"
4.5 多专家评审
每个任务经过至少2名独立专家评审 + 格式审计Agent,检查四个标准:有效性、可解性、完整性、测量稳定性。
---
五、评分方法论:对数拉伸 vs 线性评分
5.1 对数拉伸评分(性能优化任务)
用于运行时间、吞吐量等无上限指标:
$$s(x) = \text{clip}\left(\frac{1}{2} \cdot \frac{\log(m_B / m(x))}{\log(m_B / m_R)}, 0, 1\right)$$
- $m_B$:基线性能(得分0)
- $m_R$:参考性能(得分0.5)
- 特点:在对数空间中线性,奖励从基线到参考的改进,参考之后仍有提升空间
- 最小改进门:未超越基线前得分始终为0
5.2 线性评分(有界指标任务)
用于参数量、错误率等有自然上限的指标:
$$s(x) = \text{clip}\left(\frac{m_B - m(x)}{m_B - m_R}, 0, 1\right)$$
- $m_B$:基线(得分0)
- $m_R$:参考(得分1)
- 特点:达到参考即满分,适合有明确理论极限的任务
5.3 为什么不用通过/失败?
| 通过/失败的问题 | 连续评分的优势 |
|---|---|
| 容易饱和(大家都能通过) | 抗饱和,保持区分度 |
| 不奖励部分进步 | 奖励真正的部分进展 |
| 无法比较异质指标 | [0,1]归一化实现跨任务聚合 |
| 二进制结果无法诊断 | 连续分数揭示优化轨迹 |
---
六、核心发现:时间感知缺失是致命伤
6.1 两种失败模式
作者手动检查了302个零分轨迹,发现两种主导的失败模式:
模式A:过早终止(Premature Termination)
- 表现:运行评估脚本一次就提交,留下大量预算未使用
- 受害者:GPT-5.4、Grok-4-20
- 案例(Flash Attention):Grok-4-20运行一次评估就终止,速度提升1.0倍(无改进);Claude-Opus-4.6迭代44次,42.4倍加速
- 表现:持续迭代直到超时,但从未提交有效解
- 受害者:DeepSeek-V4-Pro、Hunyuan-3-Preview、Qwen-3.6-Plus
- 案例(DeepSeek-V4-Pro):CUDA任务12次试验中9次在Agent超时前执行不到10个动作;"大部分预算花在漫长的单步思考上,而非命令执行"
6.2 轨迹分析:坚持比聪明更重要
核心发现:最终表现与Agent的初始尝试质量相关性弱,与持续迭代的意愿相关性强。
| 模型 | 中位数步数 | 典型行为 | 结果 |
|---|---|---|---|
| Claude-Opus-4.6 | 57 | 长时间稳定优化 | 0.68 |
| Gemini-3.1-Pro | 12 | 中等迭代 | 0.50 |
| DeepSeek-V4-Pro | <10 | 思考多,行动少 | 0.38 |
| GPT-5.4 | 低 | 一次评估就提交 | 0.36 |
| Kimi-K2.6 | 极低 | 超长思考链,几步就超时 | 0.46 |
6.3 为什么时间感知如此重要?
长周期优化需要Agent具备三个元能力:
1. 预算估计:知道"我还剩多少时间,还能做几次迭代" 2. 探索-利用权衡:何时继续深挖当前方向,何时尝试新方向 3. 提前终止策略:何时停止(因为改进空间已小)vs 何时继续(因为还有潜力)
当前模型在以上三个能力上都表现不佳。Claude-Opus-4.6的优势不在于它每次迭代质量更高,而在于它迭代次数更多、更稳定、更懂得不中途放弃。
---
七、Harness的惊人影响:同一个模型,不同命
7.1 三种Harness对比
作者在25个CPU任务上对比了三种Agent harness:
| Harness | 特点 | 对Kimi-K2.6影响 | 对GPT-5.4影响 |
|---|---|---|---|
| terminus-2(默认) | 平衡型,广泛采用 | 0.46 | 0.36 |
| pi-mono | 轻量级,单轮为主 | 0.21 | 0.50(提升!) |
| mini-swe-agent\* | 迭代型,鼓励持续优化 | 0.64(飙升!) | 0.33(下降) |
7.2 为什么harness影响这么大?
mini-swe-agent\*(带自定义优化系统提示)的核心提示:
> "你是一个激进的性能工程Agent……工作流:1. 阅读任务说明;2. 阅读现有代码;3. 运行一次基线测试;4. 迭代优化——每次修改后:构建、运行本地验证器、检查指标。如果正确性失败,修复。如果指标改善了,继续——尝试更多优化。如果退化,回滚并尝试其他方向。5. 目标是参考分数(或更好)。不要在第一遍就提交——继续优化直到你花掉了预算的相当比例或达到参考分数。6. 只有在耗尽合理的优化想法并验证最终解仍通过正确性后,才提交。"
这个提示的魔力在于:强制要求不提前提交,强制要求迭代,强制要求验证。
7.3 Harness-模型的交互效应
| Harness类型 | 受益者 | 受损者 |
|---|---|---|
| 迭代型(mini-swe-agent) | 较弱模型(DeepSeek-V4-Flash、MiMo-V2.5) | 强单轮模型(GPT-5.4) |
| 轻量型(pi-mono) | 强单轮模型(GPT-5.4) | 弱单轮模型(Kimi、MiMo) |
7.4 成本-效率分析
Harness选择也决定了成本:
- Kimi-K2.6:pi-mono $0.40/次 vs mini-swe-agent* $2.05/次(5倍差距)
- DeepSeek-V4-Flash + mini-swe-agent*:0.54分,约$0.07/次,成本效率极高
- 小型模型+持久harness可以在成本-效率Pareto前沿上超越大型模型
八、302个零分轨迹:失败模式分析
作者手动检查了所有302个零分轨迹,将其分为4类:
| 失败模式 | 占比 | 典型表现 | 主要受害者 |
|---|---|---|---|
| 超时/上下文耗尽 | ~40% | 超时前未提交,或单次LLM调用挂起1500+秒 | DeepSeek-V4-Pro、Kimi-K2.6、Qwen |
| 能力差距 | ~35% | 提交但验证器给0分:输出错误、低于阈值、缺少文件 | 所有模型,尤其CUDA任务 |
| 指令违反 | ~15% | 使用禁止API、修改保护文件、残留额外文件 | 各模型偶发 |
| 其他 | ~10% | 服务器错误、格式错误、沙箱崩溃 | 基础设施问题 |
- 超时是最主要的失败原因,不是"不会做"
- 能力差距中很多是接近成功但差一点——比如达到基线但未到最小改进门
- 指令违反可以通过更好的系统提示减少
九、局限与未来方向
9.1 局限
1. 范围限制:聚焦可执行的系统工程和ML工作流,不是广义的科学发现(如提出新理论) 2. 评估依赖执行栈:多小时执行、API调用、GPU工作负载,评估结果与硬件/环境耦合 3. 成本高昂:2544 wall-clock小时 + 86亿token,单个团队难以复现
9.2 未来方向
1. 模型层面:训练模型具备时间感知和预算管理能力 2. Harness层面:设计自适应harness,根据模型能力动态调整迭代策略 3. 工具层面:为CUDA等盲区提供专门的工具支持(如自动生成kernel草案) 4. 效率层面:优化评估成本,使更多研究组能参与
---
十、结论:长周期优化是一种独立的能力
AutoLab的核心结论:长周期优化是一种不能归约为编码能力的独立能力。
| 能力维度 | 短周期测试 | 长周期测试 |
|---|---|---|
| 核心技能 | 一次性正确 | 持续迭代、时间感知、预算管理 |
| 失败模式 | 写错代码 | 过早放弃或耗尽资源 |
| 最优策略 | 最强单次推理 | 最稳定的持续执行 |
| 成功预测因子 | 模型智商 | 坚持度(persistence) |
对于Agent开发者,这意味着:
- 不要只优化模型的单次推理能力
- 要设计harness让模型持续迭代
- 要训练模型理解时间预算
- 要防止模型过早终止或陷入无效循环
- 长周期优化的数据稀缺但价值极高
- 强化学习可能需要在长周期回报上训练
- 时间感知应该成为模型能力评估的一部分
---
参考信息:
- 论文:AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? (arXiv:2606.05080)
- 代码:https://github.com/autolabhq/autolab
- 网站:https://autolab.moe
- 评测总耗时:2,544 wall-clock 小时,86亿token
- 17款模型评测,36个任务,4个领域
- 默认Harness:terminus-2(Harbor框架)
- 评测硬件:AMD Ryzen 9 9950X(CPU任务),H100/L40S(GPU任务,Modal云)
#AutoLab #AIAgent #LLM #基准测试 #长周期优化 #Claude #GPT #Kimi #DeepSeek #模型评估 #自动科研 #AI工程