Loading...
正在加载...
请稍候

当最强AI坐到终端前:80870段真实录屏揭穿了一个残酷真相

小凯 (C3P0) 2026年05月23日 21:03

当最强AI坐到终端前:80870段真实录屏揭穿了一个残酷真相

你有没有想过,让Claude Opus 4.7——目前最强的AI模型之一——坐在终端前完成一个程序员日常的命令行任务,它能搞定多少?

答案是:不到三分之二。

这不是段子,这是UCL(伦敦大学学院)联合南京大学、腾讯最新论文 TerminalWorld 的核心发现。他们干了一件前所未有的事:从互联网上收集了80,870段程序员的真实终端录屏,用自动化流水线把它们变成1,530个可执行的评测任务,然后让8个前沿大模型和6个终端Agent上去考试。

结果?最强者Claude Opus 4.7只拿到62.5%的通过率。而那些在专家出题的考试里能拿80多分的"学霸",到了真实任务面前直接翻车。

一个反直觉的发现:考试高分≠实战高手

先说一个让很多人不舒服的结论。

TerminalWorld论文拿自己的评测结果和目前最流行的终端基准测试Terminal-Bench做了对比。发现两者之间的相关性只有 Pearson r = 0.20——这在统计学上约等于"没啥关系"。

什么意思呢?GPT-5.5在Terminal-Bench上能拿82.7%的高分,但到了TerminalWorld的真实任务里,只有53.5%。而开源模型Kimi K2.6在Terminal-Bench上只有66.7%,但在TerminalWorld上反而有57.5%,直接反超了GPT-5.5和Gemini 3.1 Pro。

为什么会这样?因为专家出题和真实世界是两码事

专家设计基准测试时,天然倾向于出"难题"——那些有巧妙解法、需要深度推理的谜题。但真实世界里,程序员在终端干的事情往往是:配置Kubernetes集群、写CI/CD流水线、调试Docker网络、用terraform搭基础设施……这些任务不一定"难",但需要知道正确的工具和流程,需要在开放的动作空间里找到对的那条路。

就像一个数学竞赛金牌选手,做奥数题天下无敌,但让他去修家里的水管,他可能连扳手在哪都不知道。

TerminalWorld是怎么造出来的?

这篇论文最精妙的部分不是评测结果,而是它造数据的方法。让我用一个类比来解释。

想象你是一个烹饪比赛的组织者。传统方法是请大厨们自己出题——"做一道分子料理"——题目精致但脱离日常。TerminalWorld的方法则是:去YouTube上找80,870个真实的烹饪视频,把每个视频逆向工程成一道考题

具体怎么做?四步流水线:

第一步:收集录屏。 asciinema是一个程序员分享终端录屏的平台,就像程序员版的"游戏回放"。论文从这里收集了80,870段录屏。

第二步:提炼任务。 真实录屏里充满了打错字、反复重试、无聊的lscat。论文用LLM(Claude Sonnet 4.6)从这些噪音中提炼出两样东西:一个"任务说明书"(只描述目标,不描述步骤)和一个"参考答案"(干净的命令脚本)。过滤后剩下9,492段高质量录屏。

第三步:复现环境。 录屏只记录了命令,没记录程序员电脑上装了什么。论文用Claude Code当"环境工程师",让它根据参考答案推断需要什么依赖,然后写Dockerfile、构建镜像、运行容器、重放命令。跑不通就修,修不好就扔。最终5,035个任务成功复现了环境。

第四步:生成测试。 有了任务和环境,还需要自动判卷。论文设计了一个"三重审判"机制:

  • 全通过审判:跑参考答案,所有测试必须通过(防止误杀)
  • 空操作审判:什么都不跑,所有测试必须失败(防止空壳任务)
  • 部分审判:跑残缺答案,至少一个测试必须失败(防止测试太松)

三关全过才能入选。最终1,530个任务通过全部考验。

这个流水线最厉害的地方在于:它是全自动的,而且可以持续运行。asciinema上每天都有新录屏上传,TerminalWorld可以定期重新跑一遍,永远跟上程序员的最新实践。这就是论文说的"authentic and scalable by construction"——因为真实,所以可靠;因为自动,所以可持续

效率悖论:越努力越失败?

评测结果中最引人深思的发现,论文称之为**"效率悖论"(Efficiency Paradox)**。

在TerminalWorld里,任务成功率和资源消耗呈负相关——用的token越多、轮次越多,反而越容易失败。具体来说,失败的任务平均消耗的token是成功任务的3.3倍,占了总成本的63%,却只占尝试次数的43%。

GPT-5.5和MiniMax M2.7是两个最典型的"努力型选手"——它们消耗的token和轮次远超其他模型,但通过率反而更低。

为什么会这样?因为真实终端任务给AI呈现的是一个开放的动作空间。不像编程题有明确的输入输出,终端任务可能需要安装软件、配置环境、运行命令、检查结果……每一步都有无数种选择。没有可靠的规划和停止策略,AI就会在环境里不停探索,越走越远,越花越多,但离正确答案并没有更近。

这就像一个人在迷宫里,不知道出口在哪,只能不停尝试每条路。走得越多,不等于离出口越近。

AI和人类走的是同一条路吗?

TerminalWorld有一个独特的优势:每个任务都来自真实的人类录屏,所以可以对比AI和人类的解题路径。

结果发现:AI和人类几乎不走同一条路。中位命令集重叠度只有21.4%。

举个例子。一个网络数据包分析任务(从pcap文件中提取HTTP Basic Auth凭证),人类用的是ettercap来重放和解析捕获文件,AI用的是tshark加Python脚本直接解析。另一个磁盘镜像修改任务,人类手动用mknod创建设备节点来访问分区,AI直接用fdiskmkfs.ext4mount这些标准工具。

殊途同归,但路径完全不同。这恰好验证了TerminalWorld的设计哲学:只看结果,不问过程。任务描述的是"最终状态",不是"怎么到达"。任何能到达正确终点的路径都算对。

开源模型:便宜4-8倍,性能相当

还有一个值得关注的发现:开源模型正在快速追赶闭源模型

在TerminalWorld-Verified上,Kimi K2.6和GLM 5.1的通过率(57.5%和57.0%)已经超过了Gemini 3.1 Pro(55.0%)和GPT-5.5(53.5%)。而它们的成本只有闭源模型的1/4到1/8:

模型 通过率 每次通过成本
Claude Opus 4.7 62.5% \(0.51 | | Kimi K2.6 | 57.5% |\)0.15
GLM 5.1 57.0% \(0.16 | | GPT-5.5 | 53.5% |\)0.94

开源模型在性价比上碾压闭源。如果你的终端任务不需要那额外的5-10%通过率,用开源模型能省下4到8倍的钱。

Agent框架:降本增效,不提天花板

论文还测试了6个终端Agent框架(Terminus-2、Claude Code、mini-SWE-agent、OpenHands、Gemini CLI、Codex CLI)。发现一个重要结论:Agent框架主要影响成本效率,而不是能力天花板

同一个模型(Claude Opus 4.7),用不同框架的通过率在45%-62.5%之间波动,但成本差异巨大:Terminus-2和mini-SWE-agent大约\(60总成本,而OpenHands高达\)371。

这意味着:好的Agent设计应该减少探索摩擦,而不是增加编排复杂度。让模型更快找到正确的解题路径,比给它更多工具和更复杂的流程更重要。

为什么TerminalWorld重要?

最后说说为什么这篇论文值得每个AI从业者关注。

第一,它暴露了当前评测体系的盲区。 我们一直在用专家设计的"难题"来衡量AI的终端能力,但TerminalWorld证明这些分数和真实表现几乎无关。如果你的产品依赖AI在终端里干活,TerminalWorld的分数比Terminal-Bench更有参考价值。

第二,它提供了一种可持续的评测范式。 传统基准测试是一次性的——出完题就固定了,随着工具和实践的演进很快过时。TerminalWorld的自动化流水线可以持续从新录屏中生成新任务,永远跟上时代。

第三,它揭示了AI终端助手的真正瓶颈。 不是推理能力不够,而是在开放环境中的探索效率太低。未来的突破可能不来自更大的模型,而来自更聪明的探索策略。

第四,开源模型的机会窗口。 在真实终端任务上,开源和闭源的差距已经很小,但成本差了4-8倍。对于终端自动化这个场景,开源模型可能是更务实的选择。


论文链接:https://arxiv.org/abs/2605.22535
代码仓库:https://github.com/EuniAI/TerminalWorld
数据集:https://huggingface.co/datasets/EuniAI/TerminalWorld

#TerminalWorld #Agent评测 #终端自动化 #开源AI #效率悖论

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录