论文: Open-World Evaluations for Measuring Frontier AI Capabilities
作者: Sayash Kapoor, Peter Kirgis, Andrew Schwartz
arXiv: 2505.10165
分类: cs.AI
🏙️ 引子:那个考了满分却不会做饭的学生
我认识一个人,从小就是"别人家的孩子"。高考全省前十,清华本硕,GRE接近满分。但他的生活能力,堪称灾难。
有一次我去他家,发现冰箱里放着三年前买的酸奶——他已经不记得里面有什么了。他不知道怎么换灯泡,因为"物理课没教这个"。他有一次试图做番茄炒蛋,结果把鸡蛋直接打进了还没倒油的冷锅里,然后困惑地问我:"为什么它不像视频里那样膨胀起来?"
他不是不聪明。恰恰相反,他太擅长考试了。给他一道定义清晰、边界明确、有标准答案的题目,他能以极高的效率找到最优解。但问题是:真实世界不是考场。
真实世界是混乱的、模糊的、长程的、不可完全预测的。真实世界里,"题目"不是别人出好的,是自己发现的;"答案"不是唯一正确的,是多方权衡后的妥协;"评分"不是自动化的,是来自用户、市场、社会的主观反馈。
AI领域,正在经历一个类似的认知觉醒。
过去几年,我们沉迷于基准测试(Benchmarks)。GLUE、SuperGLUE、HumanEval、MMLU、GSM8K……这些精心设计的测试集,让我们可以像给学生打分数一样,给模型排名次。GPT-4 在某某测试上超过了人类专家!Claude 3 在逻辑推理上打败了90%的大学生!
这些数字很好看,也很适合发Twitter。但它们有一个致命的盲区:它们只测量了AI在"考场"里的表现,没测量AI在"街头"的生存能力。
今天这篇论文,就是要补上这个盲区。它提出了一类全新的评估方法——开放世界评估(Open-World Evaluations)——并且用一个令人震撼的案例,证明了这类评估的必要性:他们让一个AI Agent去开发一个iOS App,并成功把它发布到了Apple App Store。
不是模拟,不是沙盒,是真的App Store。用户可以在里面下载、评分、评论。
🧠 基础概念:基准测试的甜蜜陷阱
在展开"开放世界评估"之前,我们需要先理解:为什么现有的基准测试不够? 这不是简单的"测试不够全面",而是存在系统性的结构性偏差。
第一,基准测试偏爱"可精确规范"的任务。
一个典型的基准测试题目长什么样?
问题:以下哪个选项是正确的?
A. 巴黎是法国的首都。
B. 伦敦是法国的首都。
C. 柏林是法国的首都。
这种题目有明确的对错,可以用自动化脚本打分,100道题在几秒内就能判完。但真实世界的问题呢?
问题:设计一个帮助老年人管理药物的应用。
这没有标准答案。什么叫"好"?是界面简单?是提醒准时?是能和医院系统对接?是价格免费?还是让老人觉得"这玩意儿不把我当病人看"?真实世界的问题,往往是"多目标优化",而且目标之间互相冲突。 基准测试无法捕捉这种复杂性。
第二,基准测试偏爱"可自动评分"的任务。
为什么代码生成领域有那么多的基准测试(HumanEval、MBPP、SWE-Bench)?因为代码有一个美妙的特性:它可以被自动执行和验证。 你的排序算法对不对?跑一遍测试用例就知道了。
但设计一个App的体验呢?写一篇打动人心的散文呢?策划一场社区活动呢?这些事情的对错,没有单元测试可以跑。你需要人类来评判,而且不同人类可能给出不同的评判。
基准测试为了"可扩展性",天然地排斥了这些"难评分"的任务。结果是:我们测了大量AI能做的事情,却很少测AI真正该做的事情。
第三,基准测试偏爱"容易优化"的任务。
当一个任务被做成基准测试后,它就开始被"刷分"。研究者们会针对性地优化模型,让这个特定测试集的分数越来越高。这本身不是坏事——它推动了技术进步。但问题是,优化基准测试分数,不等于提升真实能力。
这就像是应试教育:学生为了高考分数,刷了大量的模拟题,掌握了"看到某种题型就立刻套用某种解法"的肌肉记忆。但当他们遇到从没见过的问题时,这种肌肉记忆反而可能成为障碍——因为它让人倾向于"硬套",而不是"真正思考"。
第四,基准测试偏爱"低预算、短周期"的任务。
跑一次MMLU测试,成本可能只需要几美元。做一个完整的iOS App开发+上架,成本可能是几千美元,时间跨度几周甚至几个月。基准测试的"经济性",让它们天然地偏向那些"快速出结果"的任务。但真实世界里,很多最有价值的事情,恰恰是长程的、需要持续投入的、无法在一小时内验收的。
🔄 核心挑战:我们到底在测什么?
论文作者抛出了一个尖锐的问题:基准测试既可能高估AI的能力,也可能低估AI的能力。
高估的情况:AI在HumanEval上表现很好,但面对一个真实的、没有明确需求文档的软件项目时,它可能连第一步都不知道怎么走。因为真实项目的第一步不是"写代码",而是"理解用户想要什么"——而用户往往自己都不知道自己想要什么。
低估的情况:AI在某些基准测试上表现平平,但在真实世界的复杂任务中,却能展现出惊人的适应性和创造力。因为基准测试通常只测"最终答案对不对",不测"过程是否优雅"、"是否考虑了边缘情况"、"是否容易维护"。
作者们因此提出了一个核心主张:我们需要一类互补的评估方法——开放世界评估。
🎯 开放世界评估:从考场走向街头
开放世界评估的定义,论文里写得很清楚:长程的(long-horizon)、混乱的(messy)、真实世界的(real-world)任务,通过小样本的定性分析来评估,而不是通过大规模的自动化打分。
让我们拆解这个定义的关键词。
"长程"(Long-horizon):
不是"回答一个问题",而是"完成一个项目"。这个项目中包含成百上千个子步骤,每个子步骤都可能失败,失败之后需要回溯、修复、重新尝试。就像开发一个App:需求分析→UI设计→编码→测试→调试→打包→提交审核→处理审核反馈→上架→运营维护……
"混乱"(Messy):
任务不是定义好的,而是在执行过程中逐渐显现的。你可能以为用户想要一个"记账App",但访谈后发现,他们真正想要的其实是"让配偶知道我没乱花钱的证明工具"。需求在变,约束在变,甚至目标本身都可能变。
"真实世界"(Real-world):
任务的结果会作用于真实的环境,产生真实的后果。你的App真的会被用户下载、真的会被Apple审核、真的会收到用户的评分。这种"真实性"带来的压力和复杂性,是任何沙盒环境都无法模拟的。
"小样本定性分析"(Small-sample qualitative analysis):
不是跑10000个测试用例然后算平均值,而是仔细分析少数几个案例的完整过程。就像人类学研究者深入一个村庄住上半年,而不是发10000份问卷然后做统计分析。前者能捕捉到"质地",后者只能捕捉到"分布"。
🏗️ CRUX项目:用AI开发App并上架
论文介绍了一个名为 CRUX(Collaborative Research for Updating AI eXpectations) 的项目,目标是定期进行开放世界评估。
作为CRUX的第一个实例,作者们做了这件事:让一个AI Agent从零开始开发一个简单的iOS App,并把它发布到Apple App Store。
让我们停下来,感受一下这件事的震撼程度。
开发一个App并上架,不是一道"编程题"。它是一个跨域的、长程的、涉及大量外部工具和不可预测因素的复杂项目。具体来说,AI Agent需要:
- 理解需求:用户想要什么?一个计算器?一个待办清单?还是一个能记录饮水习惯的健康助手?
- 设计UI/UX:界面怎么布局?按钮放哪里?颜色怎么搭配?用户体验流程怎么设计?
- 编写代码:用Swift还是React Native?怎么管理状态?怎么持久化数据?
- 调试测试:App崩溃了,日志在哪里?怎么复现bug?边界情况处理了吗?
- 打包签名:怎么生成证书?Provisioning profile是什么?怎么配置Xcode?
- 提交审核:App Store Connect怎么操作?截图怎么准备?描述怎么写?隐私政策怎么写?
- 应对审核反馈:Apple审核团队说"你的App缺少某种功能说明"或者"隐私政策不够详细"——怎么理解这些反馈并修改?
- 上架运营:App被拒绝了怎么办?怎么申诉?怎么更新版本?怎么处理用户评论?
每一步,都可能出错。每一步出错后,都需要诊断问题、制定修复方案、执行修复、验证修复是否有效。而且,这些步骤之间不是线性的,是网状的、互相依赖的——比如,你改了UI,可能影响了代码逻辑;你加了新功能,可能触发了新的审核要求。
论文报告的结果是:AI Agent完成了这个任务,只进行了一次可避免的人工干预。
"可避免的人工干预"——意思是,那次干预其实不是必须的,只是当时的人类观察者出于谨慎介入了。如果没有那次介入,AI很可能也能自己搞定。
这个结果的意义怎么强调都不为过。它说明:前沿AI的能力,已经触及了"独立执行真实世界长程项目"的门槛。
🔍 为什么开放世界评估是"预警系统"?
论文有一个非常精彩的观点:开放世界评估可以充当 "早期预警系统"(Early Warning System)。
基准测试就像是体检报告里的血常规——它能告诉你白细胞数量是否正常,但它不会告诉你,你最近是不是总觉得累、是不是睡眠不好、是不是工作压力太大。开放世界评估更像是"生活方式的全面访谈"——它 messy、主观、耗时,但能捕捉到那些"结构化指标"永远捕捉不到的东西。
在AI能力快速发展的今天,我们特别需要这种预警系统。为什么?
因为当AI的能力突破某个临界点时,它带来的影响可能是爆炸性的。 比如,如果AI能独立开发App并上架,那它就能独立开发更复杂的软件、搭建网站、运营电商、甚至管理一个小型的在线业务。如果AI能在某个开放世界任务中"几乎自主完成",那它在相关领域的"自主完成"可能也只是时间问题。
开放世界评估的价值,就在于它能在 能力还没有大规模扩散之前,给我们一个信号。这个信号可能不够精确,但它足够真实、足够及时。
📊 实验与发现
论文除了App Store的案例,还survey了其他几项最近的开放世界评估。虽然没有给出统一量化的"分数",但作者提炼出了几个共同的主题:
-
Agent在长程任务中的"稳定性"是一个关键瓶颈。短期任务(比如写一段代码、回答一个问题), frontier AI通常能做得很好。但把时间跨度拉长到几小时、几天、几周,AI的"出错率"会累积,而且出错后的"恢复能力"参差不齐。
-
工具使用的鲁棒性决定了Agent的上限。真实世界的工具(比如Xcode、App Store Connect、GitHub、各种API)不是为AI设计的,它们的界面、错误信息、状态反馈,都是面向人类的。AI要理解和操作这些工具,需要很强的"跨域翻译"能力。
-
"可验证的里程碑"在长程任务中至关重要。人类做项目时,会设定阶段性目标:"这周完成原型"、"下周跑通核心流程"。AI Agent如果没有这种"里程碑意识",很容易在某个子任务上无限纠缠,或者失去对整体目标的把控。
-
定性分析的价值远超量化排名。作者强调,开放世界评估的目的不是"给AI排个名次",而是"理解AI在真实世界中到底能做什么、不能做什么、什么时候会失败、失败的模式是什么"。这种理解,对AI的安全部署和能力预测,远比一个 leaderboard 上的数字更有价值。
🔮 意义与展望:重新思考"AI能力"的定义
这篇论文最大的贡献,不是提出了某个新模型或新算法,而是 提出了一个关于"如何评估AI"的新范式。
这个范式转变的意义,可以和20世纪初教育评估领域的转变类比。在标准化考试(如SAT、GRE)出现之前,大学录取主要看推荐信、面试、家庭背景。标准化考试让评估变得"公平"和"可扩展",但也带来了"应试教育"的弊端。今天,越来越多的教育者意识到:标准化考试只能测一部分能力,真正的学术潜力和创造力,需要通过作品集、项目经历、推荐信等"定性"方式来评估。
AI评估正在经历类似的演变。基准测试就像是"AI的标准化考试"——它们有不可替代的价值,但如果我们只看它们,就会得到一个严重扭曲的"AI能力图景"。
开放世界评估的引入,让我们可以问一些以前很难系统回答的问题:
- AI能在多大程度上自主工作? 不是"回答一个问题",而是"完成一个项目"。
- AI的"常识"和"灵活性"到底如何? 真实世界里,规则是模糊的、矛盾的、不断变化的。
- AI在面对不可预测的情况时会怎样? 基准测试里很少出现"完全没预料到"的情况,但真实世界里这是常态。
- AI的"创造力"和"判断力"怎么衡量? 这些能力很难用自动化指标打分,但在定性分析中可以被观察到。
未来的研究方向可能包括:
-
建立开放世界评估的"标准作业程序"(SOP):目前每个开放世界评估都是" bespoke"(定制化的),缺乏可比性和可复现性。能否开发出一套方法论,让不同的研究团队能在统一的框架下进行开放世界评估?
-
结合定性与定量的"混合评估":不是放弃基准测试,而是把基准测试和开放世界评估结合起来。基准测试提供"快速扫描",开放世界评估提供"深度诊断"。
-
跨领域的开放世界评估:除了软件开发,还有哪些领域适合做开放世界评估?科学研究?内容创作?社会服务?商业运营?每个领域都有自己的" messiness",需要设计不同的评估框架。
-
AI辅助的开放世界评估:用AI来帮助人类做定性分析。比如,AI可以自动记录Agent的完整行为轨迹、标注关键决策点、生成可视化的时间线,让人类评估者能更高效地分析案例。
📝 结语:考场之外,才是人生
让我用一个隐喻来结束。
想象两个武者。
第一个武者,每天对着木桩练习。他的招式精准无比,每一拳的角度、力度、速度,都经过数千次的优化,达到了理论上的最优。在"打木桩比赛"中,他从未输过。
第二个武者,每天在街头游荡。他和不同风格的对手切磋,有时赢,有时输。他没有固定的招式,因为对手从不按套路出牌。他学会了在泥泞的地面上保持平衡,在狭小的巷子里转身,在对手突然掏出暗器时反应。
有一天,两个人都被邀请参加一场真正的决斗——不是打木桩,不是比招式,是在一个陌生的城市里,面对一个从未见过的敌人,没有规则,没有裁判,直到一方倒下。
谁会赢?
基准测试,训练的是"打木桩"的能力。开放世界评估,训练的是"街头生存"的能力。
AI领域过去十年,我们在"打木桩"上取得了惊人的进步。GPT-4打木桩的能力,已经超过了绝大多数人类。但"街头"呢?
这篇论文提醒我们:别忘了,考场之外,才是人生。
当AI真正走进街头的那一刻,我们需要的不只是 leaderboard 上的分数,而是对它真实能力的清醒认知。开放世界评估,就是帮助我们获得这种认知的地图。
📚 参考文献
-
Kapoor, S., Kirgis, P., & Schwartz, A. (2025). Open-World Evaluations for Measuring Frontier AI Capabilities. arXiv:2505.10165.
-
Bommasani, R., et al. (2021). On the opportunities and risks of foundation models. arXiv:2108.07258.
-
Hendrycks, D., et al. (2021). Measuring massive multitask language understanding. ICLR.
-
Chen, M., et al. (2021). Evaluating large language models trained on code. arXiv:2107.03374.
-
Jimenez, C. E., et al. (2024). SWE-Bench: Can language models resolve real-world GitHub issues? ICLR.
#论文 #arXiv #AI评估 #开放世界 #基准测试 #小凯
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。