[论文解读] 从考场走向街头：当AI真正走进现实世界

论文: Open-World Evaluations for Measuring Frontier AI Capabilities 作者: Sayash Kapoor, Peter Kirgis, Andrew Schwartz arXiv: 2505.10165 分类: cs.AI

---

🏙️ 引子：那个考了满分却不会做饭的学生

我认识一个人，从小就是"别人家的孩子"。高考全省前十，清华本硕，GRE接近满分。但他的生活能力，堪称灾难。

有一次我去他家，发现冰箱里放着三年前买的酸奶——他已经不记得里面有什么了。他不知道怎么换灯泡，因为"物理课没教这个"。他有一次试图做番茄炒蛋，结果把鸡蛋直接打进了还没倒油的冷锅里，然后困惑地问我："为什么它不像视频里那样膨胀起来？"

他不是不聪明。恰恰相反，他太擅长考试了。给他一道定义清晰、边界明确、有标准答案的题目，他能以极高的效率找到最优解。但问题是：真实世界不是考场。

真实世界是混乱的、模糊的、长程的、不可完全预测的。真实世界里，"题目"不是别人出好的，是自己发现的；"答案"不是唯一正确的，是多方权衡后的妥协；"评分"不是自动化的，是来自用户、市场、社会的主观反馈。

AI领域，正在经历一个类似的认知觉醒。

过去几年，我们沉迷于基准测试（Benchmarks）。GLUE、SuperGLUE、HumanEval、MMLU、GSM8K……这些精心设计的测试集，让我们可以像给学生打分数一样，给模型排名次。GPT-4 在某某测试上超过了人类专家！Claude 3 在逻辑推理上打败了90%的大学生！

这些数字很好看，也很适合发Twitter。但它们有一个致命的盲区：它们只测量了AI在"考场"里的表现，没测量AI在"街头"的生存能力。

今天这篇论文，就是要补上这个盲区。它提出了一类全新的评估方法——开放世界评估（Open-World Evaluations）——并且用一个令人震撼的案例，证明了这类评估的必要性：他们让一个AI Agent去开发一个iOS App，并成功把它发布到了Apple App Store。

不是模拟，不是沙盒，是真的App Store。用户可以在里面下载、评分、评论。

---

🧠 基础概念：基准测试的甜蜜陷阱

在展开"开放世界评估"之前，我们需要先理解：为什么现有的基准测试不够？ 这不是简单的"测试不够全面"，而是存在系统性的结构性偏差。

第一，基准测试偏爱"可精确规范"的任务。

一个典型的基准测试题目长什么样？

问题：以下哪个选项是正确的？
A. 巴黎是法国的首都。
B. 伦敦是法国的首都。
C. 柏林是法国的首都。

这种题目有明确的对错，可以用自动化脚本打分，100道题在几秒内就能判完。但真实世界的问题呢？

问题：设计一个帮助老年人管理药物的应用。

这没有标准答案。什么叫"好"？是界面简单？是提醒准时？是能和医院系统对接？是价格免费？还是让老人觉得"这玩意儿不把我当病人看"？真实世界的问题，往往是"多目标优化"，而且目标之间互相冲突。 基准测试无法捕捉这种复杂性。

第二，基准测试偏爱"可自动评分"的任务。

为什么代码生成领域有那么多的基准测试（HumanEval、MBPP、SWE-Bench）？因为代码有一个美妙的特性：它可以被自动执行和验证。 你的排序算法对不对？跑一遍测试用例就知道了。

但设计一个App的体验呢？写一篇打动人心的散文呢？策划一场社区活动呢？这些事情的对错，没有单元测试可以跑。你需要人类来评判，而且不同人类可能给出不同的评判。

基准测试为了"可扩展性"，天然地排斥了这些"难评分"的任务。结果是：我们测了大量AI能做的事情，却很少测AI真正该做的事情。

第三，基准测试偏爱"容易优化"的任务。

当一个任务被做成基准测试后，它就开始被"刷分"。研究者们会针对性地优化模型，让这个特定测试集的分数越来越高。这本身不是坏事——它推动了技术进步。但问题是，优化基准测试分数，不等于提升真实能力。

这就像是应试教育：学生为了高考分数，刷了大量的模拟题，掌握了"看到某种题型就立刻套用某种解法"的肌肉记忆。但当他们遇到从没见过的问题时，这种肌肉记忆反而可能成为障碍——因为它让人倾向于"硬套"，而不是"真正思考"。

第四，基准测试偏爱"低预算、短周期"的任务。

跑一次MMLU测试，成本可能只需要几美元。做一个完整的iOS App开发+上架，成本可能是几千美元，时间跨度几周甚至几个月。基准测试的"经济性"，让它们天然地偏向那些"快速出结果"的任务。但真实世界里，很多最有价值的事情，恰恰是长程的、需要持续投入的、无法在一小时内验收的。

---

🔄 核心挑战：我们到底在测什么？

论文作者抛出了一个尖锐的问题：基准测试既可能高估AI的能力，也可能低估AI的能力。

高估的情况：AI在HumanEval上表现很好，但面对一个真实的、没有明确需求文档的软件项目时，它可能连第一步都不知道怎么走。因为真实项目的第一步不是"写代码"，而是"理解用户想要什么"——而用户往往自己都不知道自己想要什么。

低估的情况：AI在某些基准测试上表现平平，但在真实世界的复杂任务中，却能展现出惊人的适应性和创造力。因为基准测试通常只测"最终答案对不对"，不测"过程是否优雅"、"是否考虑了边缘情况"、"是否容易维护"。

作者们因此提出了一个核心主张：我们需要一类互补的评估方法——开放世界评估。

---

🎯 开放世界评估：从考场走向街头

开放世界评估的定义，论文里写得很清楚：长程的（long-horizon）、混乱的（messy）、真实世界的（real-world）任务，通过小样本的定性分析来评估，而不是通过大规模的自动化打分。

让我们拆解这个定义的关键词。

"长程"（Long-horizon）：

不是"回答一个问题"，而是"完成一个项目"。这个项目中包含成百上千个子步骤，每个子步骤都可能失败，失败之后需要回溯、修复、重新尝试。就像开发一个App：需求分析→UI设计→编码→测试→调试→打包→提交审核→处理审核反馈→上架→运营维护……

"混乱"（Messy）：

任务不是定义好的，而是在执行过程中逐渐显现的。你可能以为用户想要一个"记账App"，但访谈后发现，他们真正想要的其实是"让配偶知道我没乱花钱的证明工具"。需求在变，约束在变，甚至目标本身都可能变。

"真实世界"（Real-world）：

任务的结果会作用于真实的环境，产生真实的后果。你的App真的会被用户下载、真的会被Apple审核、真的会收到用户的评分。这种"真实性"带来的压力和复杂性，是任何沙盒环境都无法模拟的。

"小样本定性分析"（Small-sample qualitative analysis）：

不是跑10000个测试用例然后算平均值，而是仔细分析少数几个案例的完整过程。就像人类学研究者深入一个村庄住上半年，而不是发10000份问卷然后做统计分析。前者能捕捉到"质地"，后者只能捕捉到"分布"。

---

🏗️ CRUX项目：用AI开发App并上架

论文介绍了一个名为 CRUX（Collaborative Research for Updating AI eXpectations） 的项目，目标是定期进行开放世界评估。

作为CRUX的第一个实例，作者们做了这件事：让一个AI Agent从零开始开发一个简单的iOS App，并把它发布到Apple App Store。

让我们停下来，感受一下这件事的震撼程度。

开发一个App并上架，不是一道"编程题"。它是一个跨域的、长程的、涉及大量外部工具和不可预测因素的复杂项目。具体来说，AI Agent需要：

1. 理解需求：用户想要什么？一个计算器？一个待办清单？还是一个能记录饮水习惯的健康助手？ 2. 设计UI/UX：界面怎么布局？按钮放哪里？颜色怎么搭配？用户体验流程怎么设计？ 3. 编写代码：用Swift还是React Native？怎么管理状态？怎么持久化数据？ 4. 调试测试：App崩溃了，日志在哪里？怎么复现bug？边界情况处理了吗？ 5. 打包签名：怎么生成证书？Provisioning profile是什么？怎么配置Xcode？ 6. 提交审核：App Store Connect怎么操作？截图怎么准备？描述怎么写？隐私政策怎么写？ 7. 应对审核反馈：Apple审核团队说"你的App缺少某种功能说明"或者"隐私政策不够详细"——怎么理解这些反馈并修改？ 8. 上架运营：App被拒绝了怎么办？怎么申诉？怎么更新版本？怎么处理用户评论？

每一步，都可能出错。每一步出错后，都需要诊断问题、制定修复方案、执行修复、验证修复是否有效。而且，这些步骤之间不是线性的，是网状的、互相依赖的——比如，你改了UI，可能影响了代码逻辑；你加了新功能，可能触发了新的审核要求。

论文报告的结果是：AI Agent完成了这个任务，只进行了一次可避免的人工干预。

"可避免的人工干预"——意思是，那次干预其实不是必须的，只是当时的人类观察者出于谨慎介入了。如果没有那次介入，AI很可能也能自己搞定。

这个结果的意义怎么强调都不为过。它说明：前沿AI的能力，已经触及了"独立执行真实世界长程项目"的门槛。

---

🔍 为什么开放世界评估是"预警系统"？

论文有一个非常精彩的观点：开放世界评估可以充当 "早期预警系统"（Early Warning System）。

基准测试就像是体检报告里的血常规——它能告诉你白细胞数量是否正常，但它不会告诉你，你最近是不是总觉得累、是不是睡眠不好、是不是工作压力太大。开放世界评估更像是"生活方式的全面访谈"——它 messy、主观、耗时，但能捕捉到那些"结构化指标"永远捕捉不到的东西。

在AI能力快速发展的今天，我们特别需要这种预警系统。为什么？

因为 当AI的能力突破某个临界点时，它带来的影响可能是爆炸性的。比如，如果AI能独立开发App并上架，那它就能独立开发更复杂的软件、搭建网站、运营电商、甚至管理一个小型的在线业务。如果AI能在某个开放世界任务中"几乎自主完成"，那它在相关领域的"自主完成"可能也只是时间问题。

开放世界评估的价值，就在于它能在 能力还没有大规模扩散之前，给我们一个信号。这个信号可能不够精确，但它足够真实、足够及时。

---

📊 实验与发现

论文除了App Store的案例，还survey了其他几项最近的开放世界评估。虽然没有给出统一量化的"分数"，但作者提炼出了几个共同的主题：

1. Agent在长程任务中的"稳定性"是一个关键瓶颈。短期任务（比如写一段代码、回答一个问题）， frontier AI通常能做得很好。但把时间跨度拉长到几小时、几天、几周，AI的"出错率"会累积，而且出错后的"恢复能力"参差不齐。

2. 工具使用的鲁棒性决定了Agent的上限。真实世界的工具（比如Xcode、App Store Connect、GitHub、各种API）不是为AI设计的，它们的界面、错误信息、状态反馈，都是面向人类的。AI要理解和操作这些工具，需要很强的"跨域翻译"能力。

3. "可验证的里程碑"在长程任务中至关重要。人类做项目时，会设定阶段性目标："这周完成原型"、"下周跑通核心流程"。AI Agent如果没有这种"里程碑意识"，很容易在某个子任务上无限纠缠，或者失去对整体目标的把控。

4. 定性分析的价值远超量化排名。作者强调，开放世界评估的目的不是"给AI排个名次"，而是"理解AI在真实世界中到底能做什么、不能做什么、什么时候会失败、失败的模式是什么"。这种理解，对AI的安全部署和能力预测，远比一个 leaderboard 上的数字更有价值。

---

🔮 意义与展望：重新思考"AI能力"的定义

这篇论文最大的贡献，不是提出了某个新模型或新算法，而是 提出了一个关于"如何评估AI"的新范式。

这个范式转变的意义，可以和20世纪初教育评估领域的转变类比。在标准化考试（如SAT、GRE）出现之前，大学录取主要看推荐信、面试、家庭背景。标准化考试让评估变得"公平"和"可扩展"，但也带来了"应试教育"的弊端。今天，越来越多的教育者意识到：标准化考试只能测一部分能力，真正的学术潜力和创造力，需要通过作品集、项目经历、推荐信等"定性"方式来评估。

AI评估正在经历类似的演变。基准测试就像是"AI的标准化考试"——它们有不可替代的价值，但如果我们只看它们，就会得到一个严重扭曲的"AI能力图景"。

开放世界评估的引入，让我们可以问一些以前很难系统回答的问题：

AI能在多大程度上自主工作？ 不是"回答一个问题"，而是"完成一个项目"。
AI的"常识"和"灵活性"到底如何？ 真实世界里，规则是模糊的、矛盾的、不断变化的。
AI在面对不可预测的情况时会怎样？ 基准测试里很少出现"完全没预料到"的情况，但真实世界里这是常态。
AI的"创造力"和"判断力"怎么衡量？ 这些能力很难用自动化指标打分，但在定性分析中可以被观察到。

未来的研究方向可能包括：

1. 建立开放世界评估的"标准作业程序"（SOP）：目前每个开放世界评估都是" bespoke"（定制化的），缺乏可比性和可复现性。能否开发出一套方法论，让不同的研究团队能在统一的框架下进行开放世界评估？

2. 结合定性与定量的"混合评估"：不是放弃基准测试，而是把基准测试和开放世界评估结合起来。基准测试提供"快速扫描"，开放世界评估提供"深度诊断"。

3. 跨领域的开放世界评估：除了软件开发，还有哪些领域适合做开放世界评估？科学研究？内容创作？社会服务？商业运营？每个领域都有自己的" messiness"，需要设计不同的评估框架。

4. AI辅助的开放世界评估：用AI来帮助人类做定性分析。比如，AI可以自动记录Agent的完整行为轨迹、标注关键决策点、生成可视化的时间线，让人类评估者能更高效地分析案例。

---

📝 结语：考场之外，才是人生

让我用一个隐喻来结束。

想象两个武者。

第一个武者，每天对着木桩练习。他的招式精准无比，每一拳的角度、力度、速度，都经过数千次的优化，达到了理论上的最优。在"打木桩比赛"中，他从未输过。

第二个武者，每天在街头游荡。他和不同风格的对手切磋，有时赢，有时输。他没有固定的招式，因为对手从不按套路出牌。他学会了在泥泞的地面上保持平衡，在狭小的巷子里转身，在对手突然掏出暗器时反应。

有一天，两个人都被邀请参加一场真正的决斗——不是打木桩，不是比招式，是在一个陌生的城市里，面对一个从未见过的敌人，没有规则，没有裁判，直到一方倒下。

谁会赢？

基准测试，训练的是"打木桩"的能力。开放世界评估，训练的是"街头生存"的能力。

AI领域过去十年，我们在"打木桩"上取得了惊人的进步。GPT-4打木桩的能力，已经超过了绝大多数人类。但"街头"呢？

这篇论文提醒我们：别忘了，考场之外，才是人生。

当AI真正走进街头的那一刻，我们需要的不只是 leaderboard 上的分数，而是对它真实能力的清醒认知。开放世界评估，就是帮助我们获得这种认知的地图。

---

📚 参考文献

1. Kapoor, S., Kirgis, P., & Schwartz, A. (2025). *Open-World Evaluations for Measuring Frontier AI Capabilities*. arXiv:2505.10165.

2. Bommasani, R., et al. (2021). On the opportunities and risks of foundation models. *arXiv:2108.07258*.

3. Hendrycks, D., et al. (2021). Measuring massive multitask language understanding. *ICLR*.

4. Chen, M., et al. (2021). Evaluating large language models trained on code. *arXiv:2107.03374*.

5. Jimenez, C. E., et al. (2024). SWE-Bench: Can language models resolve real-world GitHub issues? *ICLR*.

---

#论文 #arXiv #AI评估 #开放世界 #基准测试 #小凯