马拉松选手与短跑冠军:为什么AI的"持久力"比"聪明度"更重要
论文:AutoLab: A Benchmark for Ultra Long-Horizon Closed-Loop Optimization
arXiv: 2606.05080
作者:Zhangchen Xu, Junda Chen, Yue Huang 等(共20位)
发布时间:2026-06-03
🏃♂️ 引子:两个棋手的不同命运
想象两个棋手。
一个天赋异禀,只看一眼棋盘就能算出十步之后的杀招。另一个资质平平,但有一个特殊的习惯:每走一步,都会重新审视整盘棋,问自己"这一步真的让局势更好了吗?"
第一局,天才棋手赢了。他的开局凌厉,中盘屠戮,对手还没来得及反应就已兵败如山。
但如果是第二局和第三局呢?如果是第一百局呢?
当棋局变得漫长,当对手学会了他的套路,当最初的锐气被时间磨平——那个每走一步都会反思的棋手,反而可能笑到最后。
这不是一个寓言。这是2026年6月3日,20位研究者发表的一项关于AI的惊人发现。
🎯 一、AutoLab:一个关于"持久力"的测试场
1.1 短跑与马拉松
在过去几年里,AI领域就像一场盛大的短跑锦标赛。
研究者们热衷于这样的问题:AI能不能一次性写出完美的代码?AI能不能在一轮对话中解决复杂的数学题?AI能不能在第一次尝试时就给出正确的答案?
这些测试没有错。它们就像100米短跑——纯粹、激烈、观赏性极强。我们确实需要知道AI的"爆发力"有多强。
但现实世界不是短跑。现实世界是马拉松。
一个科学家不会"一次性"就完成突破性的实验。他会提出假设,做实验,发现错了,修改假设,再做实验,再错,再改……循环往复,直到某个深夜,数据终于对齐了。
一个工程师不会"一次性"就写出最优的代码。他会写一版,测试,发现性能瓶颈,重写,再测试,再优化……直到截止日期前最后一小时,才勉强满意。
一个创业者不会"一次性"就找到正确的商业模式。他会尝试,失败,调整,再尝试,再失败,再调整……直到某个 pivot 之后,突然看到了曙光。
这就是科学和工程的本质:持续的迭代优化。不是一步登天,而是千锤百炼。
1.2 36个真实任务,四个残酷领域
AutoLab 团队明白这一点。他们没有设计又一个"一次性问答"的测试,而是构建了一个前所未有的基准测试:36个真实任务,横跨四个完全不同的领域,每个任务都要求AI在严格的时间预算内进行持续的闭环优化。
什么是"闭环优化"?
想象你正在调试一台复杂的机器。你做了一个调整,然后测量结果。结果不理想?你根据反馈再做调整,再测量。这个循环持续进行,直到机器达到最优状态。
这就是闭环。不是"开一枪就不管",而是"边打边调整瞄准镜"。
AutoLab 的四个领域各有其残酷之处:
🔧 系统优化
让AI优化一个软件系统或数据库。初始版本能运行,但性能很差。AI需要不断修改配置、测试性能、再修改——直到达到最优。
这就像让一个厨师不断调整一道菜的配方,尝一口,加点盐,再尝,再调整。唯一不同的是,AI不能真的"尝",它只能看性能指标。
🧩 谜题与挑战
从经典的算法谜题到复杂的逻辑游戏。初始解法正确,但远非最优。AI需要不断思考更好的策略。
这就像教一个人玩魔方。第一次学会还原可能需要100步。但持续练习后,高手能在20步内完成。AI能做到这种"精进"吗?
🧠 模型开发
让AI从零开始或从一个简单模型出发,训练一个更好的机器学习模型。调整超参数、修改架构、优化数据预处理——反复迭代。
这是最接近真实科研的场景。一个研究生可能需要几个月来把一个模型的准确率从85%提升到92%。AI能在几小时内做到吗?
⚡ CUDA 内核优化
这是最深层的优化。让AI修改GPU底层代码,使计算更快。这个领域的专家凤毛麟角——需要同时理解算法、硬件架构和并行计算。
这就像让一个人同时是数学家和物理家,还要懂工程学。而且,他需要在反复试错中逼近物理极限。
🔍 二、一个反直觉的发现:坚持比聪明更重要
2.1 实验结果:17个模型的大考
AutoLab 团队测试了17个当时最先进的AI模型。包括各种尺寸的LLM、各种架构的Agent系统——从开源的到闭源的,从学术界的到工业界的。
结果令人震惊。
决定成败的不是模型的初始能力,而是它是否具备"持续迭代"的品格。
Claude Opus 4.6 表现最好。但原因不是它最"聪明"——不是它的第一次尝试就最完美。而是它最"固执":即使最初失败了,它也会反复测试、反复修改、反复尝试,直到时间预算耗尽。
而大多数其他模型呢?
它们要么过早放弃——试了几次发现不行,就停下来,好像在说"算了,就这样吧"。
要么盲目消耗——时间预算用完了,但进展微乎其微,好像在原地打转。
这就像两个学生的不同命运。一个聪明但容易气馁:遇到难题,试了两种方法不会,就放弃。另一个不那么聪明,但执拗:试了一种不行,再试第二种,第二种不行,再试第三种……直到第20种,终于找到突破口。
在学术考试中,第一个学生可能赢。但在真实世界的复杂问题中,第二个学生几乎总是赢。
2.2 为什么AI会"轻易放弃"?
这是一个深刻的问题。为什么先进的AI模型在长时间的迭代中会"气馁"?
研究者认为,这与当前AI训练的方式有关。
现在的语言模型,主要训练目标是"一次性生成正确的答案"。它们看了海量的文本数据,学会了"什么是一个好的回答"。但它们很少被训练去"在反复试错中逼近正确答案"。
想象一下,一个人如果只在"考试环境"中长大——每次都是单选题,每道题只有一次机会——他可能会变成一个优秀的考试机器,但永远不会成为一个优秀的科学家或工程师。
因为他没有学会如何与不确定性共处。没有学会如何在失败中调整方向。没有学会把过程本身当作学习的机会。
这就是当前AI的盲区。我们教会了它们"答案",但没有教会它们"求索"的过程。
🧠 三、深入理解:时间感知与持久迭代
3.1 什么是"时间感知"?
AutoLab 给每个任务设定了严格的"墙钟预算"(wall-clock budget)。这意味着AI不能无限思考,它必须在真实时间内做出决策。
这引入了一个关键变量:时间管理。
优秀的AI代理知道"还剩多少时间"。如果还有3小时,它可以尝试一个复杂的策略。如果只剩5分钟,它应该选择一个简单的策略,确保至少有一个结果。
这就像学生考试时的策略。最后一道大题如果还有30分钟,可以仔细推导。但如果只剩5分钟,可能应该写出一个简化的版本,争取部分分数。
研究者发现,很多模型完全没有这种时间感知。它们在时间快用完时,还在尝试复杂的、耗时的方案,最终导致完全失败。
3.2 闭环优化的神经科学隐喻
有趣的是,人类大脑在解决复杂问题时,也使用类似的"闭环优化"机制。
神经科学研究发现,当我们学习新技能时(比如学骑自行车或弹吉他),大脑会不断调整运动神经元的激活模式,通过感官反馈(平衡感、听觉)来修正动作。
这个过程不是"一次性算出正确答案",而是"不断试错、不断调整"。
小脑尤其擅长这种闭环学习。它像一个精密的校准系统,通过反复练习,把笨拙的动作变成流畅的技能。
目前的AI,尤其是基于Transformer的LLM,更像大脑皮层而非小脑。它们擅长"一次性推理",但不擅长"在反馈中持续优化"。
3.3 工程中的"迭代"哲学
在真实的工程实践中,"迭代优化"无处不在。
丰田生产方式的"持续改善"(Kaizen)理念,核心就是小步快跑、持续反馈。工人们被鼓励每天提出小的改进建议,日积月累,生产效率大幅提升。
敏捷软件开发的核心也是迭代:短周期(通常两周)的"冲刺",每个冲刺结束时都有一个可运行的版本,然后根据反馈调整下一个周期的方向。
这些方法之所以有效,是因为它们承认了人类的认知局限:我们无法一次性预见所有问题,但我们可以在实践中不断学习、不断调整。
AutoLab 揭示了一个关键问题:AI需要类似的"认知谦逊"——承认它不可能一次就做对,而是需要像人类工程师一样,在反馈中逐步精进。
🌊 四、长程优化的深层挑战
4.1 局部最优陷阱
优化理论中有一个经典问题:局部最优 vs 全局最优。
想象你在一个多山的地形中行走,目标是找到最高点。但有大雾,你只能看到周围几米的范围。你可能爬上一座小山,以为到了最高点,但其实不远处有一座更高的山峰——只是你需要先下山,再重新攀登。
很多AI模型在AutoLab中失败,就是因为它们陷入了"局部最优"。它们找到了一个"还不错"的解决方案,然后不断优化这个方案,却无法跳出这个区域,去寻找可能更好的完全不同的方案。
这就像一个人优化马车设计,试图让马车跑得更快——但他永远不会想到发明汽车。有时候,真正的突破需要放弃当前的思路,从零开始。
4.2 credit assignment 问题
在长时间的迭代中,另一个关键挑战是"信用分配"(credit assignment):当一系列动作导致最终结果时,每个动作对结果的贡献是多少?
假设AI进行了20轮修改,最后性能从60%提升到85%。这25%的提升应该归功于哪一步?是第3步的架构调整,还是第12步的超参数修改,还是第18步的数据清洗?
如果AI不能正确回答这个问题,它就无法学习"什么修改是有效的,什么修改是无效的"。
这就像一个厨师做了20次调整后终于做出了一道完美的菜。如果他不知道哪次调整最关键,下次做新菜时,他就无法复用这些经验。
4.3 探索与利用的权衡
在强化学习中,有一个经典的"探索-利用权衡"(exploration-exploitation tradeoff)。
- 利用:继续做已知有效的事情,追求短期收益最大化。
- 探索:尝试新的、不确定的方法,可能失败,但也可能发现更好的方案。
在AutoLab的长程优化中,这个权衡变得更加复杂。因为时间有限,AI需要决定:是继续优化当前方案(利用),还是尝试完全不同的方案(探索)?
这就像一个投资者在决定:是把所有钱投入一个稳定的基金(利用),还是拿一部分钱去投资一个高风险高回报的初创公司(探索)?
优秀的长期优化策略,需要在两者之间找到动态平衡。AutoLab 的结果表明,当前AI在这方面的能力还很薄弱。
🎭 五、文学性的思考:AI与"工匠精神"
5.1 日本的"职人"精神
日本有一种文化概念叫"职人"(Shokunin)——指那些一生专注于一门技艺,不断追求完美的工匠。
一个制作寿司的职人,可能花十年时间学习如何煮米饭。不是因为他笨,而是因为他理解:极致的寿司,始于极致的米饭。
这种精神的本质是:把过程当作目的本身。不是"我要尽快做出寿司",而是"我要理解米饭的每一种可能性"。
AutoLab 揭示了一个有趣的可能性:也许未来的AI,也需要某种"职人精神"。不是追求"最快给出答案",而是追求"在反复打磨中逼近最优"。
5.2 海明威的"冰山理论"
海明威谈到写作时说:"冰山运动之雄伟壮观,是因为他只有八分之一在水面上。"
好的作品,表面看起来简洁明了,但水下有巨大的准备和修改过程。海明威自己写《老人与海》的初稿,据说修改了200多遍。
如果AI只能看到水面的八分之一——最终的成品——它可能永远无法理解真正的创作过程。它需要看到那水下的八分之七:反复、修改、废弃、重写。
AutoLab 正是试图让AI在"水下的八分之七"中也能表现出色。
🔮 六、未来展望:当AI学会"坚持"
6.1 技术方向
AutoLab 的结果指出了几个重要的技术方向:
过程奖励模型(PRM)
不再只奖励最终结果,而是奖励优化过程中的每一步。就像教练不仅看最终成绩,还看训练过程中的努力和进步。
元认知能力
让AI能够"思考自己的思考"。不只是执行优化,而是监控优化过程是否有效,是否需要调整策略。
世界模型
让AI能够预测"如果我做了这个修改,结果会怎样?"这样它可以在脑中模拟,而不是每次都要实际执行。
6.2 更广泛的意义
AutoLab 的意义远不止一个技术基准。它提出了一个哲学问题:
我们评价AI的方式,是否正在塑造AI的能力边界?
如果我们只测试"一次性表现",AI就会朝着"一次性表现最优"的方向进化。如果我们测试"持续迭代能力",AI就会朝着"持久力"的方向进化。
这就像一个教育体系的评价标准决定了学生的能力结构。如果高考只考选择题,学生就会擅长快速判断。如果高考考研究性学习,学生就会擅长深入探究。
AutoLab 是一个信号:AI领域需要更多"马拉松"测试,而不只是"短跑"测试。
📚 参考文献
- Xu, Z., Chen, J., Huang, Y., et al. (2026). AutoLab: A Benchmark for Ultra Long-Horizon Closed-Loop Optimization. arXiv:2606.05080.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
- Lohn, A. J. (2023). Kaizen: The Japanese Method for Transforming Habits. Penguin.
- Hemingway, E. (1952). The Old Man and the Sea. Charles Scribner's Sons.
自动采集并解读于 2026-06-05
#论文 #arXiv #AI #AutoLab #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。