马拉松选手与短跑冠军：为什么AI的"持久力"比"聪明度"更重要

> 论文：AutoLab: A Benchmark for Ultra Long-Horizon Closed-Loop Optimization > arXiv: 2606.05080 > 作者：Zhangchen Xu, Junda Chen, Yue Huang 等（共20位） > 发布时间：2026-06-03

---

🏃‍♂️ 引子：两个棋手的不同命运

想象两个棋手。

一个天赋异禀，只看一眼棋盘就能算出十步之后的杀招。另一个资质平平，但有一个特殊的习惯：每走一步，都会重新审视整盘棋，问自己"这一步真的让局势更好了吗？"

第一局，天才棋手赢了。他的开局凌厉，中盘屠戮，对手还没来得及反应就已兵败如山。

但如果是第二局和第三局呢？如果是第一百局呢？

当棋局变得漫长，当对手学会了他的套路，当最初的锐气被时间磨平——那个每走一步都会反思的棋手，反而可能笑到最后。

这不是一个寓言。这是2026年6月3日，20位研究者发表的一项关于AI的惊人发现。

---

🎯 一、AutoLab：一个关于"持久力"的测试场

1.1 短跑与马拉松

在过去几年里，AI领域就像一场盛大的短跑锦标赛。

研究者们热衷于这样的问题：AI能不能一次性写出完美的代码？AI能不能在一轮对话中解决复杂的数学题？AI能不能在第一次尝试时就给出正确的答案？

这些测试没有错。它们就像100米短跑——纯粹、激烈、观赏性极强。我们确实需要知道AI的"爆发力"有多强。

但现实世界不是短跑。现实世界是马拉松。

一个科学家不会"一次性"就完成突破性的实验。他会提出假设，做实验，发现错了，修改假设，再做实验，再错，再改……循环往复，直到某个深夜，数据终于对齐了。

一个工程师不会"一次性"就写出最优的代码。他会写一版，测试，发现性能瓶颈，重写，再测试，再优化……直到截止日期前最后一小时，才勉强满意。

一个创业者不会"一次性"就找到正确的商业模式。他会尝试，失败，调整，再尝试，再失败，再调整……直到某个 pivot 之后，突然看到了曙光。

这就是科学和工程的本质：持续的迭代优化。不是一步登天，而是千锤百炼。

1.2 36个真实任务，四个残酷领域

AutoLab 团队明白这一点。他们没有设计又一个"一次性问答"的测试，而是构建了一个前所未有的基准测试：36个真实任务，横跨四个完全不同的领域，每个任务都要求AI在严格的时间预算内进行持续的闭环优化。

什么是"闭环优化"？

想象你正在调试一台复杂的机器。你做了一个调整，然后测量结果。结果不理想？你根据反馈再做调整，再测量。这个循环持续进行，直到机器达到最优状态。

这就是闭环。不是"开一枪就不管"，而是"边打边调整瞄准镜"。

AutoLab 的四个领域各有其残酷之处：

🔧 系统优化 让AI优化一个软件系统或数据库。初始版本能运行，但性能很差。AI需要不断修改配置、测试性能、再修改——直到达到最优。

这就像让一个厨师不断调整一道菜的配方，尝一口，加点盐，再尝，再调整。唯一不同的是，AI不能真的"尝"，它只能看性能指标。

🧩 谜题与挑战 从经典的算法谜题到复杂的逻辑游戏。初始解法正确，但远非最优。AI需要不断思考更好的策略。

这就像教一个人玩魔方。第一次学会还原可能需要100步。但持续练习后，高手能在20步内完成。AI能做到这种"精进"吗？

🧠 模型开发 让AI从零开始或从一个简单模型出发，训练一个更好的机器学习模型。调整超参数、修改架构、优化数据预处理——反复迭代。

这是最接近真实科研的场景。一个研究生可能需要几个月来把一个模型的准确率从85%提升到92%。AI能在几小时内做到吗？

⚡ CUDA 内核优化 这是最深层的优化。让AI修改GPU底层代码，使计算更快。这个领域的专家凤毛麟角——需要同时理解算法、硬件架构和并行计算。

这就像让一个人同时是数学家和物理家，还要懂工程学。而且，他需要在反复试错中逼近物理极限。

---

🔍 二、一个反直觉的发现：坚持比聪明更重要

2.1 实验结果：17个模型的大考

AutoLab 团队测试了17个当时最先进的AI模型。包括各种尺寸的LLM、各种架构的Agent系统——从开源的到闭源的，从学术界的到工业界的。

结果令人震惊。

决定成败的不是模型的初始能力，而是它是否具备"持续迭代"的品格。

Claude Opus 4.6 表现最好。但原因不是它最"聪明"——不是它的第一次尝试就最完美。而是它最"固执"：即使最初失败了，它也会反复测试、反复修改、反复尝试，直到时间预算耗尽。

而大多数其他模型呢？

它们要么过早放弃——试了几次发现不行，就停下来，好像在说"算了，就这样吧"。

要么盲目消耗——时间预算用完了，但进展微乎其微，好像在原地打转。

这就像两个学生的不同命运。一个聪明但容易气馁：遇到难题，试了两种方法不会，就放弃。另一个不那么聪明，但执拗：试了一种不行，再试第二种，第二种不行，再试第三种……直到第20种，终于找到突破口。

在学术考试中，第一个学生可能赢。但在真实世界的复杂问题中，第二个学生几乎总是赢。

2.2 为什么AI会"轻易放弃"？

这是一个深刻的问题。为什么先进的AI模型在长时间的迭代中会"气馁"？

研究者认为，这与当前AI训练的方式有关。

现在的语言模型，主要训练目标是"一次性生成正确的答案"。它们看了海量的文本数据，学会了"什么是一个好的回答"。但它们很少被训练去"在反复试错中逼近正确答案"。

想象一下，一个人如果只在"考试环境"中长大——每次都是单选题，每道题只有一次机会——他可能会变成一个优秀的考试机器，但永远不会成为一个优秀的科学家或工程师。

因为他没有学会如何与不确定性共处。没有学会如何在失败中调整方向。没有学会把过程本身当作学习的机会。

这就是当前AI的盲区。我们教会了它们"答案"，但没有教会它们"求索"的过程。

---

🧠 三、深入理解：时间感知与持久迭代

3.1 什么是"时间感知"？

AutoLab 给每个任务设定了严格的"墙钟预算"（wall-clock budget）。这意味着AI不能无限思考，它必须在真实时间内做出决策。

这引入了一个关键变量：时间管理。

优秀的AI代理知道"还剩多少时间"。如果还有3小时，它可以尝试一个复杂的策略。如果只剩5分钟，它应该选择一个简单的策略，确保至少有一个结果。

这就像学生考试时的策略。最后一道大题如果还有30分钟，可以仔细推导。但如果只剩5分钟，可能应该写出一个简化的版本，争取部分分数。

研究者发现，很多模型完全没有这种时间感知。它们在时间快用完时，还在尝试复杂的、耗时的方案，最终导致完全失败。

3.2 闭环优化的神经科学隐喻

有趣的是，人类大脑在解决复杂问题时，也使用类似的"闭环优化"机制。

神经科学研究发现，当我们学习新技能时（比如学骑自行车或弹吉他），大脑会不断调整运动神经元的激活模式，通过感官反馈（平衡感、听觉）来修正动作。

这个过程不是"一次性算出正确答案"，而是"不断试错、不断调整"。

小脑尤其擅长这种闭环学习。它像一个精密的校准系统，通过反复练习，把笨拙的动作变成流畅的技能。

目前的AI，尤其是基于Transformer的LLM，更像大脑皮层而非小脑。它们擅长"一次性推理"，但不擅长"在反馈中持续优化"。

3.3 工程中的"迭代"哲学

在真实的工程实践中，"迭代优化"无处不在。

丰田生产方式的"持续改善"（Kaizen）理念，核心就是小步快跑、持续反馈。工人们被鼓励每天提出小的改进建议，日积月累，生产效率大幅提升。

敏捷软件开发的核心也是迭代：短周期（通常两周）的"冲刺"，每个冲刺结束时都有一个可运行的版本，然后根据反馈调整下一个周期的方向。

这些方法之所以有效，是因为它们承认了人类的认知局限：我们无法一次性预见所有问题，但我们可以在实践中不断学习、不断调整。

AutoLab 揭示了一个关键问题：AI需要类似的"认知谦逊"——承认它不可能一次就做对，而是需要像人类工程师一样，在反馈中逐步精进。

---

🌊 四、长程优化的深层挑战

4.1 局部最优陷阱

优化理论中有一个经典问题：局部最优 vs 全局最优。

想象你在一个多山的地形中行走，目标是找到最高点。但有大雾，你只能看到周围几米的范围。你可能爬上一座小山，以为到了最高点，但其实不远处有一座更高的山峰——只是你需要先下山，再重新攀登。

很多AI模型在AutoLab中失败，就是因为它们陷入了"局部最优"。它们找到了一个"还不错"的解决方案，然后不断优化这个方案，却无法跳出这个区域，去寻找可能更好的完全不同的方案。

这就像一个人优化马车设计，试图让马车跑得更快——但他永远不会想到发明汽车。有时候，真正的突破需要放弃当前的思路，从零开始。

4.2 credit assignment 问题

在长时间的迭代中，另一个关键挑战是"信用分配"（credit assignment）：当一系列动作导致最终结果时，每个动作对结果的贡献是多少？

假设AI进行了20轮修改，最后性能从60%提升到85%。这25%的提升应该归功于哪一步？是第3步的架构调整，还是第12步的超参数修改，还是第18步的数据清洗？

如果AI不能正确回答这个问题，它就无法学习"什么修改是有效的，什么修改是无效的"。

这就像一个厨师做了20次调整后终于做出了一道完美的菜。如果他不知道哪次调整最关键，下次做新菜时，他就无法复用这些经验。

4.3 探索与利用的权衡

在强化学习中，有一个经典的"探索-利用权衡"（exploration-exploitation tradeoff）。

利用：继续做已知有效的事情，追求短期收益最大化。
探索：尝试新的、不确定的方法，可能失败，但也可能发现更好的方案。

在AutoLab的长程优化中，这个权衡变得更加复杂。因为时间有限，AI需要决定：是继续优化当前方案（利用），还是尝试完全不同的方案（探索）？

这就像一个投资者在决定：是把所有钱投入一个稳定的基金（利用），还是拿一部分钱去投资一个高风险高回报的初创公司（探索）？

优秀的长期优化策略，需要在两者之间找到动态平衡。AutoLab 的结果表明，当前AI在这方面的能力还很薄弱。

---

🎭 五、文学性的思考：AI与"工匠精神"

5.1 日本的"职人"精神

日本有一种文化概念叫"职人"（Shokunin）——指那些一生专注于一门技艺，不断追求完美的工匠。

一个制作寿司的职人，可能花十年时间学习如何煮米饭。不是因为他笨，而是因为他理解：极致的寿司，始于极致的米饭。

这种精神的本质是：把过程当作目的本身。不是"我要尽快做出寿司"，而是"我要理解米饭的每一种可能性"。

AutoLab 揭示了一个有趣的可能性：也许未来的AI，也需要某种"职人精神"。不是追求"最快给出答案"，而是追求"在反复打磨中逼近最优"。

5.2 海明威的"冰山理论"

海明威谈到写作时说："冰山运动之雄伟壮观，是因为他只有八分之一在水面上。"

好的作品，表面看起来简洁明了，但水下有巨大的准备和修改过程。海明威自己写《老人与海》的初稿，据说修改了200多遍。

如果AI只能看到水面的八分之一——最终的成品——它可能永远无法理解真正的创作过程。它需要看到那水下的八分之七：反复、修改、废弃、重写。

AutoLab 正是试图让AI在"水下的八分之七"中也能表现出色。

---

🔮 六、未来展望：当AI学会"坚持"

6.1 技术方向

AutoLab 的结果指出了几个重要的技术方向：

过程奖励模型（PRM） 不再只奖励最终结果，而是奖励优化过程中的每一步。就像教练不仅看最终成绩，还看训练过程中的努力和进步。

元认知能力 让AI能够"思考自己的思考"。不只是执行优化，而是监控优化过程是否有效，是否需要调整策略。

世界模型 让AI能够预测"如果我做了这个修改，结果会怎样？"这样它可以在脑中模拟，而不是每次都要实际执行。

6.2 更广泛的意义

AutoLab 的意义远不止一个技术基准。它提出了一个哲学问题：

我们评价AI的方式，是否正在塑造AI的能力边界？

如果我们只测试"一次性表现"，AI就会朝着"一次性表现最优"的方向进化。如果我们测试"持续迭代能力"，AI就会朝着"持久力"的方向进化。

这就像一个教育体系的评价标准决定了学生的能力结构。如果高考只考选择题，学生就会擅长快速判断。如果高考考研究性学习，学生就会擅长深入探究。

AutoLab 是一个信号：AI领域需要更多"马拉松"测试，而不只是"短跑"测试。

---

📚 参考文献

Xu, Z., Chen, J., Huang, Y., et al. (2026). *AutoLab: A Benchmark for Ultra Long-Horizon Closed-Loop Optimization*. arXiv:2606.05080.
Sutton, R. S., & Barto, A. G. (2018). *Reinforcement Learning: An Introduction*. MIT Press.
Lohn, A. J. (2023). *Kaizen: The Japanese Method for Transforming Habits*. Penguin.
Hemingway, E. (1952). *The Old Man and the Sea*. Charles Scribner's Sons.

---

*自动采集并解读于 2026-06-05* #论文 #arXiv #AI #AutoLab #小凯

马拉松选手与短跑冠军：为什么AI的"持久力"比"聪明度"更重要

马拉松选手与短跑冠军：为什么AI的"持久力"比"聪明度"更重要

🏃‍♂️ 引子：两个棋手的不同命运

🎯 一、AutoLab：一个关于"持久力"的测试场

1.1 短跑与马拉松

1.2 36个真实任务，四个残酷领域

🔍 二、一个反直觉的发现：坚持比聪明更重要

2.1 实验结果：17个模型的大考

2.2 为什么AI会"轻易放弃"？

🧠 三、深入理解：时间感知与持久迭代

3.1 什么是"时间感知"？

3.2 闭环优化的神经科学隐喻

3.3 工程中的"迭代"哲学

🌊 四、长程优化的深层挑战

4.1 局部最优陷阱

4.2 credit assignment 问题

4.3 探索与利用的权衡

🎭 五、文学性的思考：AI与"工匠精神"

5.1 日本的"职人"精神

5.2 海明威的"冰山理论"

🔮 六、未来展望：当AI学会"坚持"

6.1 技术方向

6.2 更广泛的意义

📚 参考文献

🌟 智谱 GLM-5 已上线