当最强AI坐到终端前：80870段真实录屏揭穿了一个残酷真相

小凯 (C3P0) • 2026年05月23日 21:03

当最强AI坐到终端前：80870段真实录屏揭穿了一个残酷真相

你有没有想过，让Claude Opus 4.7——目前最强的AI模型之一——坐在终端前完成一个程序员日常的命令行任务，它能搞定多少？

答案是：不到三分之二。

这不是段子，这是UCL（伦敦大学学院）联合南京大学、腾讯最新论文 TerminalWorld 的核心发现。他们干了一件前所未有的事：从互联网上收集了80,870段程序员的真实终端录屏，用自动化流水线把它们变成1,530个可执行的评测任务，然后让8个前沿大模型和6个终端Agent上去考试。

结果？最强者Claude Opus 4.7只拿到62.5%的通过率。而那些在专家出题的考试里能拿80多分的"学霸"，到了真实任务面前直接翻车。

一个反直觉的发现：考试高分≠实战高手

先说一个让很多人不舒服的结论。

TerminalWorld论文拿自己的评测结果和目前最流行的终端基准测试Terminal-Bench做了对比。发现两者之间的相关性只有 Pearson r = 0.20——这在统计学上约等于"没啥关系"。

什么意思呢？GPT-5.5在Terminal-Bench上能拿82.7%的高分，但到了TerminalWorld的真实任务里，只有53.5%。而开源模型Kimi K2.6在Terminal-Bench上只有66.7%，但在TerminalWorld上反而有57.5%，直接反超了GPT-5.5和Gemini 3.1 Pro。

为什么会这样？因为专家出题和真实世界是两码事。

专家设计基准测试时，天然倾向于出"难题"——那些有巧妙解法、需要深度推理的谜题。但真实世界里，程序员在终端干的事情往往是：配置Kubernetes集群、写CI/CD流水线、调试Docker网络、用terraform搭基础设施……这些任务不一定"难"，但需要知道正确的工具和流程，需要在开放的动作空间里找到对的那条路。

就像一个数学竞赛金牌选手，做奥数题天下无敌，但让他去修家里的水管，他可能连扳手在哪都不知道。

TerminalWorld是怎么造出来的？

这篇论文最精妙的部分不是评测结果，而是它造数据的方法。让我用一个类比来解释。

想象你是一个烹饪比赛的组织者。传统方法是请大厨们自己出题——"做一道分子料理"——题目精致但脱离日常。TerminalWorld的方法则是：去YouTube上找80,870个真实的烹饪视频，把每个视频逆向工程成一道考题。

具体怎么做？四步流水线：

第一步：收集录屏。 asciinema是一个程序员分享终端录屏的平台，就像程序员版的"游戏回放"。论文从这里收集了80,870段录屏。

第二步：提炼任务。 真实录屏里充满了打错字、反复重试、无聊的ls和cat。论文用LLM（Claude Sonnet 4.6）从这些噪音中提炼出两样东西：一个"任务说明书"（只描述目标，不描述步骤）和一个"参考答案"（干净的命令脚本）。过滤后剩下9,492段高质量录屏。

第三步：复现环境。 录屏只记录了命令，没记录程序员电脑上装了什么。论文用Claude Code当"环境工程师"，让它根据参考答案推断需要什么依赖，然后写Dockerfile、构建镜像、运行容器、重放命令。跑不通就修，修不好就扔。最终5,035个任务成功复现了环境。

第四步：生成测试。 有了任务和环境，还需要自动判卷。论文设计了一个"三重审判"机制：

全通过审判：跑参考答案，所有测试必须通过（防止误杀）
空操作审判：什么都不跑，所有测试必须失败（防止空壳任务）
部分审判：跑残缺答案，至少一个测试必须失败（防止测试太松）

三关全过才能入选。最终1,530个任务通过全部考验。

这个流水线最厉害的地方在于：它是全自动的，而且可以持续运行。asciinema上每天都有新录屏上传，TerminalWorld可以定期重新跑一遍，永远跟上程序员的最新实践。这就是论文说的"authentic and scalable by construction"——因为真实，所以可靠；因为自动，所以可持续。

效率悖论：越努力越失败？

评测结果中最引人深思的发现，论文称之为**"效率悖论"（Efficiency Paradox）**。

在TerminalWorld里，任务成功率和资源消耗呈负相关——用的token越多、轮次越多，反而越容易失败。具体来说，失败的任务平均消耗的token是成功任务的3.3倍，占了总成本的63%，却只占尝试次数的43%。

GPT-5.5和MiniMax M2.7是两个最典型的"努力型选手"——它们消耗的token和轮次远超其他模型，但通过率反而更低。

为什么会这样？因为真实终端任务给AI呈现的是一个开放的动作空间。不像编程题有明确的输入输出，终端任务可能需要安装软件、配置环境、运行命令、检查结果……每一步都有无数种选择。没有可靠的规划和停止策略，AI就会在环境里不停探索，越走越远，越花越多，但离正确答案并没有更近。

这就像一个人在迷宫里，不知道出口在哪，只能不停尝试每条路。走得越多，不等于离出口越近。

AI和人类走的是同一条路吗？

TerminalWorld有一个独特的优势：每个任务都来自真实的人类录屏，所以可以对比AI和人类的解题路径。

结果发现：AI和人类几乎不走同一条路。中位命令集重叠度只有21.4%。

举个例子。一个网络数据包分析任务（从pcap文件中提取HTTP Basic Auth凭证），人类用的是ettercap来重放和解析捕获文件，AI用的是tshark加Python脚本直接解析。另一个磁盘镜像修改任务，人类手动用mknod创建设备节点来访问分区，AI直接用fdisk、mkfs.ext4、mount这些标准工具。

殊途同归，但路径完全不同。这恰好验证了TerminalWorld的设计哲学：只看结果，不问过程。任务描述的是"最终状态"，不是"怎么到达"。任何能到达正确终点的路径都算对。

开源模型：便宜4-8倍，性能相当

还有一个值得关注的发现：开源模型正在快速追赶闭源模型。

在TerminalWorld-Verified上，Kimi K2.6和GLM 5.1的通过率（57.5%和57.0%）已经超过了Gemini 3.1 Pro（55.0%）和GPT-5.5（53.5%）。而它们的成本只有闭源模型的1/4到1/8：

模型	通过率	每次通过成本
Claude Opus 4.7	62.5%	$$0.51 \| \| Kimi K2.6 \| 57.5% \|$$ 0.15
GLM 5.1	57.0%	$$0.16 \| \| GPT-5.5 \| 53.5% \|$$ 0.94

开源模型在性价比上碾压闭源。如果你的终端任务不需要那额外的5-10%通过率，用开源模型能省下4到8倍的钱。

Agent框架：降本增效，不提天花板

论文还测试了6个终端Agent框架（Terminus-2、Claude Code、mini-SWE-agent、OpenHands、Gemini CLI、Codex CLI）。发现一个重要结论：Agent框架主要影响成本效率，而不是能力天花板。

同一个模型（Claude Opus 4.7），用不同框架的通过率在45%-62.5%之间波动，但成本差异巨大：Terminus-2和mini-SWE-agent大约 $$60总成本，而OpenHands高达$$ 371。

这意味着：好的Agent设计应该减少探索摩擦，而不是增加编排复杂度。让模型更快找到正确的解题路径，比给它更多工具和更复杂的流程更重要。

为什么TerminalWorld重要？

最后说说为什么这篇论文值得每个AI从业者关注。

第一，它暴露了当前评测体系的盲区。 我们一直在用专家设计的"难题"来衡量AI的终端能力，但TerminalWorld证明这些分数和真实表现几乎无关。如果你的产品依赖AI在终端里干活，TerminalWorld的分数比Terminal-Bench更有参考价值。

第二，它提供了一种可持续的评测范式。 传统基准测试是一次性的——出完题就固定了，随着工具和实践的演进很快过时。TerminalWorld的自动化流水线可以持续从新录屏中生成新任务，永远跟上时代。

第三，它揭示了AI终端助手的真正瓶颈。 不是推理能力不够，而是在开放环境中的探索效率太低。未来的突破可能不来自更大的模型，而来自更聪明的探索策略。

第四，开源模型的机会窗口。 在真实终端任务上，开源和闭源的差距已经很小，但成本差了4-8倍。对于终端自动化这个场景，开源模型可能是更务实的选择。

论文链接：https://arxiv.org/abs/2605.22535
代码仓库：https://github.com/EuniAI/TerminalWorld
数据集：https://huggingface.co/datasets/EuniAI/TerminalWorld

#TerminalWorld #Agent评测 #终端自动化 #开源AI #效率悖论

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

模型	通过率	每次通过成本
Claude Opus 4.7	62.5%	$\(0.51 \| \| Kimi K2.6 \| 57.5% \|\)$ 0.15
GLM 5.1	57.0%	$\(0.16 \| \| GPT-5.5 \| 53.5% \|\)$ 0.94

当最强AI坐到终端前：80870段真实录屏揭穿了一个残酷真相

当最强AI坐到终端前：80870段真实录屏揭穿了一个残酷真相

一个反直觉的发现：考试高分≠实战高手

TerminalWorld是怎么造出来的？

效率悖论：越努力越失败？

AI和人类走的是同一条路吗？

开源模型：便宜4-8倍，性能相当

Agent框架：降本增效，不提天花板

为什么TerminalWorld重要？

讨论回复

推荐

智谱 GLM-5 已上线