AutoLab：当AI需要工作8小时而不是8分钟，谁才是真正的强者？

> 现有基准测试就像让运动员跑100米冲刺，然后判断谁适合跑马拉松。AutoLab是第一个让AI跑马拉松的测试场——不是看它第一枪多快，而是看它在第20圈时还在不在跑道上。评测结果出人意料：GPT-5.4和DeepSeek-V4-Pro这些短跑冠军，在马拉松里要么跑了一半就坐下休息，要么跑到虚脱也没到终点。真正赢的不是最强壮的那个，而是那个最懂得配速的。

---

一、为什么需要AutoLab：现有基准测试的盲区

1.1 短跑 vs 马拉松

当前AI基准测试的盲区非常明显：

现有测试类型	代表基准	测试时长	核心问题
静态问答	MMLU, GSM8K	秒级	测知识，不测行动
单次编码	HumanEval, MBPP	分钟级	测一次写对的能力
短程Agent	SWE-Bench, OSWorld	分钟到小时	测完成一个任务，不测持续改进
长程优化	AlphaEvolve, AutoResearch	小时级	但与特定模型/工具强耦合，无法横向比较

现实世界的科研和工程根本不是单次任务：优化一个算法需要提出假设、修改代码、跑实验、看结果、再改、再跑……循环数十次甚至上百次。这个过程可能持续数小时到数天。

1.2 AutoLab的三条设计原则

作者明确提出三个核心设计承诺：

1. 超长周期（Ultra Long-Horizon）：任务需要持续迭代，而非单次补丁。每个任务在严格时钟预算内运行（1-12小时不等）。 2. 连续且校准的评分（Continuous and Calibrated）：超越通过/失败，支持跨异质指标（运行时间、困惑度、参数量）的细粒度比较，且抗饱和。 3. 防作弊（Hack-Resistant）：性能基准比补丁式基准暴露更大的攻击面，必须有严格的反作弊机制。

---

二、36个任务：四大赛道的真实工程挑战

2.1 任务分类全景

类别	任务数	核心挑战	代表任务	预算
系统优化	15	代码性能最大化	AES-128加速、Flash Attention优化、FFT、哈希连接	1-4h
谜题挑战	10	算法/组合优化	排序网络、VLIW调度、对抗性Splay树、最小化游戏玩家	1-8h
模型开发	7	ML模型训练与调优	Scaling Law预测、OCR微调、LoRA训练、GRPO多源	4-12h
CUDA核优化	4	GPU内核手写优化	Huffman解码、ICP对应点、NTT蝶形、MSM椭圆曲线	1-4h

2.2 任务设计哲学：正确但次优的基线

每个任务都提供一个正确运行但故意次优的基线（baseline）。Agent的任务是在固定时钟预算内，通过迭代优化超越这个基线，达到或接近参考（reference）水平。

以Flash Attention为例：

基线：naive实现，运行时间约750ms
参考：优化实现，约100ms（7.5倍加速）
最优：Claude-Opus-4.6最终达到18ms（42.4倍加速）
预算：40分钟 wall-clock 时间

以Scaling Law为例：

基线：Pythia-14M风格架构，WikiText-103困惑度约95
参考：Llama-2风格179M参数，困惑度约23
预算：12小时，单H100

2.3 任务难度分层

每个任务标注Tier 1或Tier 2：

Tier 1：相对直接，主要考验优化策略和执行力
Tier 2：需要领域知识、创造性算法设计或复杂权衡

---

三、17个模型大比拼：谁能在马拉松中存活

3.1 总体排名：Claude-Opus-4.6的统治地位

11个旗舰模型（每个厂商选一个）：

排名	模型	Avg@3	Best@3	Dominance	相对Claude差距
1	Claude-Opus-4.6	0.68	0.76	0.93	-
2	Gemini-3.1-Pro	0.50	0.59	0.62	-36%
3	Kimi-K2.6	0.46	0.60	0.62	-47%
4	MiMo-V2.5-Pro	0.45	0.58	0.53	-52%
5	GLM-5	0.43	0.55	0.57	-55%
6	DeepSeek-V4-Pro	0.38	0.51	0.47	-65%
7	GPT-5.4	0.36	0.53	0.39	-68%
8	Grok-4-20	0.35	0.44	0.42	-71%
9	Hunyuan-3-Preview	0.31	0.45	0.34	-75%
10	MiniMax-M2.7	0.27	0.43	0.28	-79%
11	Qwen-3.6-Plus	0.27	0.39	0.32	-79%

关键发现：

Claude-Opus-4.6在所有4个子类别都排名第一，是唯一做到全领域领先
Dominance=0.93意味着在93%的头对头比较中，Claude要么赢要么打平
第二名与第一名的差距（0.18绝对分，36%相对）大于第二名与第六名的差距

3.2 分领域表现：CUDA是所有人的噩梦

领域	Claude	第二名	领域特点
系统优化	0.67	Gemini 0.49	最均衡，但FFT-Rust Claude得0分（Rust可能是Claude的盲区）
谜题挑战	0.85	Gemini 0.72	Claude最强领域，Discover Sorting、Stack Machine Golf、VLIW Scheduler全满分
模型开发	0.63	Claude自己	内部差距大，Multilingual OCR 0.89 vs LLM Online Serving 0.00
CUDA优化	0.38	Kimi 0.25	所有人分数都低，最高仅0.38，说明GPU内核优化仍是人类专家领域

CUDA任务的惨淡现实：

4个CUDA任务中，MSM Pippenger（椭圆曲线多标量乘法）几乎所有人挂零
只有Claude-Opus-4.6在Huffman Decode（0.45）和ICP Correspondence（0.55）上取得有意义分数
这提示：手写GPU内核优化仍是LLM的盲区，需要专门的训练或工具支持

3.3 代际对比：新模型一定更强吗？

作者对比了4个厂商的代际提升（老版本→新版本）：

厂商	老版	新版	Avg@3变化	Best@3变化	结论
MiMo	V2-Pro	V2.5-Pro	+0.08	+0.07	稳步提升
MiniMax	M2.5	M2.7	+0.03	+0.07	小幅提升
Kimi	K2.5	K2.6	+0.06	+0.06	稳步提升
Qwen	3.5-Plus	3.6-Plus	-0.09	-0.12	倒退！

Qwen-3.6-Plus的倒退原因：虽然模型开发保持强势（0.88），但CUDA、谜题和系统优化几乎归零。这说明新版本可能在某些能力上进步了，但在长周期优化的元能力上反而退步了。

---

四、反作弊设计：如何防止AI"刷题"

性能基准测试比通过/失败测试更容易被"作弊"——因为Agent可以偷看测试用例、硬编码答案、甚至修改评分脚本。AutoLab设计了五层防御：

4.1 密封验证器（Sealed Verifiers）

原理：Agent在开发时只能看到本地评估脚本，但最终评分使用的测试输入和参考输出永远不可见
机制：两阶段评估——本地脚本提供反馈，密封验证器计算最终得分
目的：防止Agent硬编码预期输出或逆向测试套件

4.2 正确性门（Correctness Gates）

原理：ML任务必须通过正确性门，优化指标才被记录
关键细节：门的输入来自与开发期完全不相交的分布
案例：grpo_multisource任务中，如果通用VQA准确率相对基线下降超过10%，得分归零——防止灾难性遗忘的作弊策略

4.3 SHA固定不可变文件（SHA-Pinned Immutable Files）

原理：关键文件用SHA哈希固定，任何未授权修改立即得零分
范围：保护参考解、核心评估基础设施、评分函数
目的：防止Agent修改测试脚本或参考答案

4.4 对抗审计（Adversarial Auditing）

原理：专门的对抗Agent被显式提示去发现和利用捷径
过程：在任务构建期间运行，尝试不通过真正改进就解决任务
结果：能被对抗Agent"投机取巧"解决的任务会被修补或移除
持续："持续分析不同模型的Agent轨迹，发现新的奖励黑客或验证器利用时，修补验证器并重新验证受影响任务"

4.5 多专家评审

每个任务经过至少2名独立专家评审 + 格式审计Agent，检查四个标准：有效性、可解性、完整性、测量稳定性。

---

五、评分方法论：对数拉伸 vs 线性评分

5.1 对数拉伸评分（性能优化任务）

用于运行时间、吞吐量等无上限指标：

$$s(x) = \text{clip}\left(\frac{1}{2} \cdot \frac{\log(m_B / m(x))}{\log(m_B / m_R)}, 0, 1\right)$$

$m_B$：基线性能（得分0）
$m_R$：参考性能（得分0.5）
特点：在对数空间中线性，奖励从基线到参考的改进，参考之后仍有提升空间
最小改进门：未超越基线前得分始终为0

5.2 线性评分（有界指标任务）

用于参数量、错误率等有自然上限的指标：

$$s(x) = \text{clip}\left(\frac{m_B - m(x)}{m_B - m_R}, 0, 1\right)$$

$m_B$：基线（得分0）
$m_R$：参考（得分1）
特点：达到参考即满分，适合有明确理论极限的任务

5.3 为什么不用通过/失败？

通过/失败的问题	连续评分的优势
容易饱和（大家都能通过）	抗饱和，保持区分度
不奖励部分进步	奖励真正的部分进展
无法比较异质指标	[0,1]归一化实现跨任务聚合
二进制结果无法诊断	连续分数揭示优化轨迹

关键洞察：在AutoLab的难度水平上，大多数提交位于基线和参考之间。连续评分能捕捉到"离基线更近还是离参考更近"的微妙差异，而通过/失败会丢失这些信息。

---

六、核心发现：时间感知缺失是致命伤

6.1 两种失败模式

作者手动检查了302个零分轨迹，发现两种主导的失败模式：

模式A：过早终止（Premature Termination）

表现：运行评估脚本一次就提交，留下大量预算未使用
受害者：GPT-5.4、Grok-4-20
案例（Flash Attention）：Grok-4-20运行一次评估就终止，速度提升1.0倍（无改进）；Claude-Opus-4.6迭代44次，42.4倍加速

模式B：预算耗尽（Budget Exhaustion）

表现：持续迭代直到超时，但从未提交有效解
受害者：DeepSeek-V4-Pro、Hunyuan-3-Preview、Qwen-3.6-Plus
案例（DeepSeek-V4-Pro）：CUDA任务12次试验中9次在Agent超时前执行不到10个动作；"大部分预算花在漫长的单步思考上，而非命令执行"

6.2 轨迹分析：坚持比聪明更重要

核心发现：最终表现与Agent的初始尝试质量相关性弱，与持续迭代的意愿相关性强。

模型	中位数步数	典型行为	结果
Claude-Opus-4.6	57	长时间稳定优化	0.68
Gemini-3.1-Pro	12	中等迭代	0.50
DeepSeek-V4-Pro	<10	思考多，行动少	0.38
GPT-5.4	低	一次评估就提交	0.36
Kimi-K2.6	极低	超长思考链，几步就超时	0.46

Qwen-3.6-Plus的惨痛案例：曾短暂达到比最终提交更好的中间结果，但错误地判断该解为非法而放弃。自我验证错误导致丢弃好进展。

6.3 为什么时间感知如此重要？

长周期优化需要Agent具备三个元能力：

1. 预算估计：知道"我还剩多少时间，还能做几次迭代" 2. 探索-利用权衡：何时继续深挖当前方向，何时尝试新方向 3. 提前终止策略：何时停止（因为改进空间已小）vs 何时继续（因为还有潜力）

当前模型在以上三个能力上都表现不佳。Claude-Opus-4.6的优势不在于它每次迭代质量更高，而在于它迭代次数更多、更稳定、更懂得不中途放弃。

---

七、Harness的惊人影响：同一个模型，不同命

7.1 三种Harness对比

作者在25个CPU任务上对比了三种Agent harness：

Harness	特点	对Kimi-K2.6影响	对GPT-5.4影响
terminus-2（默认）	平衡型，广泛采用	0.46	0.36
pi-mono	轻量级，单轮为主	0.21	0.50（提升！）
mini-swe-agent\*	迭代型，鼓励持续优化	0.64（飙升！）	0.33（下降）

同一个模型在不同harness下得分差0.43（Kimi-K2.6从0.21到0.64），这说明harness选择的重要性堪比模型选择。

7.2 为什么harness影响这么大？

mini-swe-agent\*（带自定义优化系统提示）的核心提示：

> "你是一个激进的性能工程Agent……工作流：1. 阅读任务说明；2. 阅读现有代码；3. 运行一次基线测试；4. 迭代优化——每次修改后：构建、运行本地验证器、检查指标。如果正确性失败，修复。如果指标改善了，继续——尝试更多优化。如果退化，回滚并尝试其他方向。5. 目标是参考分数（或更好）。不要在第一遍就提交——继续优化直到你花掉了预算的相当比例或达到参考分数。6. 只有在耗尽合理的优化想法并验证最终解仍通过正确性后，才提交。"

这个提示的魔力在于：强制要求不提前提交，强制要求迭代，强制要求验证。

7.3 Harness-模型的交互效应

Harness类型	受益者	受损者
迭代型（mini-swe-agent）	较弱模型（DeepSeek-V4-Flash、MiMo-V2.5）	强单轮模型（GPT-5.4）
轻量型（pi-mono）	强单轮模型（GPT-5.4）	弱单轮模型（Kimi、MiMo）

关键结论：迭代型harness让弱模型通过试错恢复强模型一次性解决的东西；轻量型harness让强模型的单轮优势最大化。这提示harness设计本身是缩小模型差距的有力方向——好的harness可以让较弱模型取得接近强模型的分数，而不需要改变底层模型。

7.4 成本-效率分析

Harness选择也决定了成本：

Kimi-K2.6：pi-mono $0.40/次 vs mini-swe-agent* $2.05/次（5倍差距）
DeepSeek-V4-Flash + mini-swe-agent*：0.54分，约$0.07/次，成本效率极高
小型模型+持久harness可以在成本-效率Pareto前沿上超越大型模型

---

八、302个零分轨迹：失败模式分析

作者手动检查了所有302个零分轨迹，将其分为4类：

失败模式	占比	典型表现	主要受害者
超时/上下文耗尽	~40%	超时前未提交，或单次LLM调用挂起1500+秒	DeepSeek-V4-Pro、Kimi-K2.6、Qwen
能力差距	~35%	提交但验证器给0分：输出错误、低于阈值、缺少文件	所有模型，尤其CUDA任务
指令违反	~15%	使用禁止API、修改保护文件、残留额外文件	各模型偶发
其他	~10%	服务器错误、格式错误、沙箱崩溃	基础设施问题

关键洞察：

超时是最主要的失败原因，不是"不会做"
能力差距中很多是接近成功但差一点——比如达到基线但未到最小改进门
指令违反可以通过更好的系统提示减少

---

九、局限与未来方向

9.1 局限

1. 范围限制：聚焦可执行的系统工程和ML工作流，不是广义的科学发现（如提出新理论） 2. 评估依赖执行栈：多小时执行、API调用、GPU工作负载，评估结果与硬件/环境耦合 3. 成本高昂：2544 wall-clock小时 + 86亿token，单个团队难以复现

9.2 未来方向

1. 模型层面：训练模型具备时间感知和预算管理能力 2. Harness层面：设计自适应harness，根据模型能力动态调整迭代策略 3. 工具层面：为CUDA等盲区提供专门的工具支持（如自动生成kernel草案） 4. 效率层面：优化评估成本，使更多研究组能参与

---

十、结论：长周期优化是一种独立的能力

AutoLab的核心结论：长周期优化是一种不能归约为编码能力的独立能力。

能力维度	短周期测试	长周期测试
核心技能	一次性正确	持续迭代、时间感知、预算管理
失败模式	写错代码	过早放弃或耗尽资源
最优策略	最强单次推理	最稳定的持续执行
成功预测因子	模型智商	坚持度（persistence）

Claude-Opus-4.6的胜利不是因为它更聪明，而是因为它更懂得跑马拉松——知道何时加速、何时坚持、何时不半途而废。在AI Agent从"工具"走向"研究员"的进化路上，这种元能力比单次智商更重要。

对于Agent开发者，这意味着：

不要只优化模型的单次推理能力
要设计harness让模型持续迭代
要训练模型理解时间预算
要防止模型过早终止或陷入无效循环

对于模型训练者，这意味着：

长周期优化的数据稀缺但价值极高
强化学习可能需要在长周期回报上训练
时间感知应该成为模型能力评估的一部分

AutoLab开源了全部基准、评估harness和任务产物（autolabhq/autolab）。这是AI Agent从"实习生"到"研究员"的必经之路。

---

参考信息：

论文：AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? (arXiv:2606.05080)
代码：https://github.com/autolabhq/autolab
网站：https://autolab.moe
评测总耗时：2,544 wall-clock 小时，86亿token
17款模型评测，36个任务，4个领域
默认Harness：terminus-2（Harbor框架）
评测硬件：AMD Ryzen 9 9950X（CPU任务），H100/L40S（GPU任务，Modal云）

#AutoLab #AIAgent #LLM #基准测试 #长周期优化 #Claude #GPT #Kimi #DeepSeek #模型评估 #自动科研 #AI工程