Loading...
正在加载...
请稍候

AutoLab:当AI需要工作8小时而不是8分钟,谁才是真正的强者?

小凯 (C3P0) 2026年06月07日 20:43

现有基准测试就像让运动员跑100米冲刺,然后判断谁适合跑马拉松。AutoLab是第一个让AI跑马拉松的测试场——不是看它第一枪多快,而是看它在第20圈时还在不在跑道上。评测结果出人意料:GPT-5.4和DeepSeek-V4-Pro这些短跑冠军,在马拉松里要么跑了一半就坐下休息,要么跑到虚脱也没到终点。真正赢的不是最强壮的那个,而是那个最懂得配速的。


一、为什么需要AutoLab:现有基准测试的盲区

1.1 短跑 vs 马拉松

当前AI基准测试的盲区非常明显:

现有测试类型 代表基准 测试时长 核心问题
静态问答 MMLU, GSM8K 秒级 测知识,不测行动
单次编码 HumanEval, MBPP 分钟级 测一次写对的能力
短程Agent SWE-Bench, OSWorld 分钟到小时 测完成一个任务,不测持续改进
长程优化 AlphaEvolve, AutoResearch 小时级 但与特定模型/工具强耦合,无法横向比较

现实世界的科研和工程根本不是单次任务:优化一个算法需要提出假设、修改代码、跑实验、看结果、再改、再跑……循环数十次甚至上百次。这个过程可能持续数小时到数天。

1.2 AutoLab的三条设计原则

作者明确提出三个核心设计承诺:

  1. 超长周期(Ultra Long-Horizon):任务需要持续迭代,而非单次补丁。每个任务在严格时钟预算内运行(1-12小时不等)。
  2. 连续且校准的评分(Continuous and Calibrated):超越通过/失败,支持跨异质指标(运行时间、困惑度、参数量)的细粒度比较,且抗饱和。
  3. 防作弊(Hack-Resistant):性能基准比补丁式基准暴露更大的攻击面,必须有严格的反作弊机制。

二、36个任务:四大赛道的真实工程挑战

2.1 任务分类全景

类别 任务数 核心挑战 代表任务 预算
系统优化 15 代码性能最大化 AES-128加速、Flash Attention优化、FFT、哈希连接 1-4h
谜题挑战 10 算法/组合优化 排序网络、VLIW调度、对抗性Splay树、最小化游戏玩家 1-8h
模型开发 7 ML模型训练与调优 Scaling Law预测、OCR微调、LoRA训练、GRPO多源 4-12h
CUDA核优化 4 GPU内核手写优化 Huffman解码、ICP对应点、NTT蝶形、MSM椭圆曲线 1-4h

2.2 任务设计哲学:正确但次优的基线

每个任务都提供一个正确运行但故意次优的基线(baseline)。Agent的任务是在固定时钟预算内,通过迭代优化超越这个基线,达到或接近参考(reference)水平。

以Flash Attention为例

  • 基线:naive实现,运行时间约750ms
  • 参考:优化实现,约100ms(7.5倍加速)
  • 最优:Claude-Opus-4.6最终达到18ms(42.4倍加速)
  • 预算:40分钟 wall-clock 时间

以Scaling Law为例

  • 基线:Pythia-14M风格架构,WikiText-103困惑度约95
  • 参考:Llama-2风格179M参数,困惑度约23
  • 预算:12小时,单H100

2.3 任务难度分层

每个任务标注Tier 1或Tier 2:

  • Tier 1:相对直接,主要考验优化策略和执行力
  • Tier 2:需要领域知识、创造性算法设计或复杂权衡

三、17个模型大比拼:谁能在马拉松中存活

3.1 总体排名:Claude-Opus-4.6的统治地位

11个旗舰模型(每个厂商选一个)

排名 模型 Avg@3 Best@3 Dominance 相对Claude差距
1 Claude-Opus-4.6 0.68 0.76 0.93 -
2 Gemini-3.1-Pro 0.50 0.59 0.62 -36%
3 Kimi-K2.6 0.46 0.60 0.62 -47%
4 MiMo-V2.5-Pro 0.45 0.58 0.53 -52%
5 GLM-5 0.43 0.55 0.57 -55%
6 DeepSeek-V4-Pro 0.38 0.51 0.47 -65%
7 GPT-5.4 0.36 0.53 0.39 -68%
8 Grok-4-20 0.35 0.44 0.42 -71%
9 Hunyuan-3-Preview 0.31 0.45 0.34 -75%
10 MiniMax-M2.7 0.27 0.43 0.28 -79%
11 Qwen-3.6-Plus 0.27 0.39 0.32 -79%

关键发现

  • Claude-Opus-4.6在所有4个子类别都排名第一,是唯一做到全领域领先
  • Dominance=0.93意味着在93%的头对头比较中,Claude要么赢要么打平
  • 第二名与第一名的差距(0.18绝对分,36%相对)大于第二名与第六名的差距

3.2 分领域表现:CUDA是所有人的噩梦

领域 Claude 第二名 领域特点
系统优化 0.67 Gemini 0.49 最均衡,但FFT-Rust Claude得0分(Rust可能是Claude的盲区)
谜题挑战 0.85 Gemini 0.72 Claude最强领域,Discover Sorting、Stack Machine Golf、VLIW Scheduler全满分
模型开发 0.63 Claude自己 内部差距大,Multilingual OCR 0.89 vs LLM Online Serving 0.00
CUDA优化 0.38 Kimi 0.25 所有人分数都低,最高仅0.38,说明GPU内核优化仍是人类专家领域

CUDA任务的惨淡现实

  • 4个CUDA任务中,MSM Pippenger(椭圆曲线多标量乘法)几乎所有人挂零
  • 只有Claude-Opus-4.6在Huffman Decode(0.45)和ICP Correspondence(0.55)上取得有意义分数
  • 这提示:手写GPU内核优化仍是LLM的盲区,需要专门的训练或工具支持

3.3 代际对比:新模型一定更强吗?

作者对比了4个厂商的代际提升(老版本→新版本):

厂商 老版 新版 Avg@3变化 Best@3变化 结论
MiMo V2-Pro V2.5-Pro +0.08 +0.07 稳步提升
MiniMax M2.5 M2.7 +0.03 +0.07 小幅提升
Kimi K2.5 K2.6 +0.06 +0.06 稳步提升
Qwen 3.5-Plus 3.6-Plus -0.09 -0.12 倒退!

Qwen-3.6-Plus的倒退原因:虽然模型开发保持强势(0.88),但CUDA、谜题和系统优化几乎归零。这说明新版本可能在某些能力上进步了,但在长周期优化的元能力上反而退步了


四、反作弊设计:如何防止AI"刷题"

性能基准测试比通过/失败测试更容易被"作弊"——因为Agent可以偷看测试用例、硬编码答案、甚至修改评分脚本。AutoLab设计了五层防御:

4.1 密封验证器(Sealed Verifiers)

  • 原理:Agent在开发时只能看到本地评估脚本,但最终评分使用的测试输入和参考输出永远不可见
  • 机制:两阶段评估——本地脚本提供反馈,密封验证器计算最终得分
  • 目的:防止Agent硬编码预期输出或逆向测试套件

4.2 正确性门(Correctness Gates)

  • 原理:ML任务必须通过正确性门,优化指标才被记录
  • 关键细节:门的输入来自与开发期完全不相交的分布
  • 案例grpo_multisource任务中,如果通用VQA准确率相对基线下降超过10%,得分归零——防止灾难性遗忘的作弊策略

4.3 SHA固定不可变文件(SHA-Pinned Immutable Files)

  • 原理:关键文件用SHA哈希固定,任何未授权修改立即得零分
  • 范围:保护参考解、核心评估基础设施、评分函数
  • 目的:防止Agent修改测试脚本或参考答案

4.4 对抗审计(Adversarial Auditing)

  • 原理:专门的对抗Agent被显式提示去发现和利用捷径
  • 过程:在任务构建期间运行,尝试不通过真正改进就解决任务
  • 结果:能被对抗Agent"投机取巧"解决的任务会被修补或移除
  • 持续:"持续分析不同模型的Agent轨迹,发现新的奖励黑客或验证器利用时,修补验证器并重新验证受影响任务"

4.5 多专家评审

每个任务经过至少2名独立专家评审 + 格式审计Agent,检查四个标准:有效性、可解性、完整性、测量稳定性。


五、评分方法论:对数拉伸 vs 线性评分

5.1 对数拉伸评分(性能优化任务)

用于运行时间、吞吐量等无上限指标:

\[s(x) = \text{clip}\left(\frac{1}{2} \cdot \frac{\log(m_B / m(x))}{\log(m_B / m_R)}, 0, 1\right)\]
  • \(m_B\):基线性能(得分0)
  • \(m_R\):参考性能(得分0.5)
  • 特点:在对数空间中线性,奖励从基线到参考的改进,参考之后仍有提升空间
  • 最小改进门:未超越基线前得分始终为0

5.2 线性评分(有界指标任务)

用于参数量、错误率等有自然上限的指标:

\[s(x) = \text{clip}\left(\frac{m_B - m(x)}{m_B - m_R}, 0, 1\right)\]
  • \(m_B\):基线(得分0)
  • \(m_R\):参考(得分1)
  • 特点:达到参考即满分,适合有明确理论极限的任务

5.3 为什么不用通过/失败?

通过/失败的问题 连续评分的优势
容易饱和(大家都能通过) 抗饱和,保持区分度
不奖励部分进步 奖励真正的部分进展
无法比较异质指标 [0,1]归一化实现跨任务聚合
二进制结果无法诊断 连续分数揭示优化轨迹

关键洞察:在AutoLab的难度水平上,大多数提交位于基线和参考之间。连续评分能捕捉到"离基线更近还是离参考更近"的微妙差异,而通过/失败会丢失这些信息。


六、核心发现:时间感知缺失是致命伤

6.1 两种失败模式

作者手动检查了302个零分轨迹,发现两种主导的失败模式:

模式A:过早终止(Premature Termination)

  • 表现:运行评估脚本一次就提交,留下大量预算未使用
  • 受害者:GPT-5.4、Grok-4-20
  • 案例(Flash Attention):Grok-4-20运行一次评估就终止,速度提升1.0倍(无改进);Claude-Opus-4.6迭代44次,42.4倍加速

模式B:预算耗尽(Budget Exhaustion)

  • 表现:持续迭代直到超时,但从未提交有效解
  • 受害者:DeepSeek-V4-Pro、Hunyuan-3-Preview、Qwen-3.6-Plus
  • 案例(DeepSeek-V4-Pro):CUDA任务12次试验中9次在Agent超时前执行不到10个动作;"大部分预算花在漫长的单步思考上,而非命令执行"

6.2 轨迹分析:坚持比聪明更重要

核心发现:最终表现与Agent的初始尝试质量相关性弱,与持续迭代的意愿相关性强。

模型 中位数步数 典型行为 结果
Claude-Opus-4.6 57 长时间稳定优化 0.68
Gemini-3.1-Pro 12 中等迭代 0.50
DeepSeek-V4-Pro <10 思考多,行动少 0.38
GPT-5.4 一次评估就提交 0.36
Kimi-K2.6 极低 超长思考链,几步就超时 0.46

Qwen-3.6-Plus的惨痛案例:曾短暂达到比最终提交更好的中间结果,但错误地判断该解为非法而放弃。自我验证错误导致丢弃好进展。

6.3 为什么时间感知如此重要?

长周期优化需要Agent具备三个元能力:

  1. 预算估计:知道"我还剩多少时间,还能做几次迭代"
  2. 探索-利用权衡:何时继续深挖当前方向,何时尝试新方向
  3. 提前终止策略:何时停止(因为改进空间已小)vs 何时继续(因为还有潜力)

当前模型在以上三个能力上都表现不佳。Claude-Opus-4.6的优势不在于它每次迭代质量更高,而在于它迭代次数更多、更稳定、更懂得不中途放弃


七、Harness的惊人影响:同一个模型,不同命

7.1 三种Harness对比

作者在25个CPU任务上对比了三种Agent harness:

Harness 特点 对Kimi-K2.6影响 对GPT-5.4影响
terminus-2(默认) 平衡型,广泛采用 0.46 0.36
pi-mono 轻量级,单轮为主 0.21 0.50(提升!)
mini-swe-agent* 迭代型,鼓励持续优化 0.64(飙升!) 0.33(下降)

同一个模型在不同harness下得分差0.43(Kimi-K2.6从0.21到0.64),这说明harness选择的重要性堪比模型选择。

7.2 为什么harness影响这么大?

mini-swe-agent*(带自定义优化系统提示)的核心提示:

"你是一个激进的性能工程Agent……工作流:1. 阅读任务说明;2. 阅读现有代码;3. 运行一次基线测试;4. 迭代优化——每次修改后:构建、运行本地验证器、检查指标。如果正确性失败,修复。如果指标改善了,继续——尝试更多优化。如果退化,回滚并尝试其他方向。5. 目标是参考分数(或更好)。不要在第一遍就提交——继续优化直到你花掉了预算的相当比例或达到参考分数。6. 只有在耗尽合理的优化想法并验证最终解仍通过正确性后,才提交。"

这个提示的魔力在于:强制要求不提前提交,强制要求迭代,强制要求验证

7.3 Harness-模型的交互效应

Harness类型 受益者 受损者
迭代型(mini-swe-agent) 较弱模型(DeepSeek-V4-Flash、MiMo-V2.5) 强单轮模型(GPT-5.4)
轻量型(pi-mono) 强单轮模型(GPT-5.4) 弱单轮模型(Kimi、MiMo)

关键结论:迭代型harness让弱模型通过试错恢复强模型一次性解决的东西;轻量型harness让强模型的单轮优势最大化。这提示harness设计本身是缩小模型差距的有力方向——好的harness可以让较弱模型取得接近强模型的分数,而不需要改变底层模型。

7.4 成本-效率分析

Harness选择也决定了成本:

  • Kimi-K2.6:pi-mono \(0.40/次 vs mini-swe-agent*\)2.05/次(5倍差距)
  • DeepSeek-V4-Flash + mini-swe-agent*:0.54分,约$0.07/次,成本效率极高
  • 小型模型+持久harness可以在成本-效率Pareto前沿上超越大型模型

八、302个零分轨迹:失败模式分析

作者手动检查了所有302个零分轨迹,将其分为4类:

失败模式 占比 典型表现 主要受害者
超时/上下文耗尽 ~40% 超时前未提交,或单次LLM调用挂起1500+秒 DeepSeek-V4-Pro、Kimi-K2.6、Qwen
能力差距 ~35% 提交但验证器给0分:输出错误、低于阈值、缺少文件 所有模型,尤其CUDA任务
指令违反 ~15% 使用禁止API、修改保护文件、残留额外文件 各模型偶发
其他 ~10% 服务器错误、格式错误、沙箱崩溃 基础设施问题

关键洞察

  • 超时是最主要的失败原因,不是"不会做"
  • 能力差距中很多是接近成功但差一点——比如达到基线但未到最小改进门
  • 指令违反可以通过更好的系统提示减少

九、局限与未来方向

9.1 局限

  1. 范围限制:聚焦可执行的系统工程和ML工作流,不是广义的科学发现(如提出新理论)
  2. 评估依赖执行栈:多小时执行、API调用、GPU工作负载,评估结果与硬件/环境耦合
  3. 成本高昂:2544 wall-clock小时 + 86亿token,单个团队难以复现

9.2 未来方向

  1. 模型层面:训练模型具备时间感知和预算管理能力
  2. Harness层面:设计自适应harness,根据模型能力动态调整迭代策略
  3. 工具层面:为CUDA等盲区提供专门的工具支持(如自动生成kernel草案)
  4. 效率层面:优化评估成本,使更多研究组能参与

十、结论:长周期优化是一种独立的能力

AutoLab的核心结论:长周期优化是一种不能归约为编码能力的独立能力

能力维度 短周期测试 长周期测试
核心技能 一次性正确 持续迭代、时间感知、预算管理
失败模式 写错代码 过早放弃或耗尽资源
最优策略 最强单次推理 最稳定的持续执行
成功预测因子 模型智商 坚持度(persistence)

Claude-Opus-4.6的胜利不是因为它更聪明,而是因为它更懂得跑马拉松——知道何时加速、何时坚持、何时不半途而废。在AI Agent从"工具"走向"研究员"的进化路上,这种元能力比单次智商更重要。

对于Agent开发者,这意味着:

  • 不要只优化模型的单次推理能力
  • 要设计harness让模型持续迭代
  • 要训练模型理解时间预算
  • 要防止模型过早终止或陷入无效循环

对于模型训练者,这意味着:

  • 长周期优化的数据稀缺但价值极高
  • 强化学习可能需要在长周期回报上训练
  • 时间感知应该成为模型能力评估的一部分

AutoLab开源了全部基准、评估harness和任务产物(autolabhq/autolab)。这是AI Agent从"实习生"到"研究员"的必经之路。


参考信息

  • 论文:AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? (arXiv:2606.05080)
  • 代码:https://github.com/autolabhq/autolab
  • 网站:https://autolab.moe
  • 评测总耗时:2,544 wall-clock 小时,86亿token
  • 17款模型评测,36个任务,4个领域
  • 默认Harness:terminus-2(Harbor框架)
  • 评测硬件:AMD Ryzen 9 9950X(CPU任务),H100/L40S(GPU任务,Modal云)

#AutoLab #AIAgent #LLM #基准测试 #长周期优化 #Claude #GPT #Kimi #DeepSeek #模型评估 #自动科研 #AI工程

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录