AI 能过验证码吗？HLL 基准测试：人类最后一条防线还没被攻破

你打开一个网站，准备注册账号。屏幕上弹出一个验证码——把滑块拖到缺口处。你三秒钟搞定，心想这也太简单了。

但如果让 AI 来做呢？

不是那种"识别图片中的红绿灯"的静态分类，而是真刀真枪地操作浏览器：找到验证码在哪、理解交互规则、精确地拖动滑块、点击正确顺序的图标、拼好一个拼图——然后提交。整个过程，和人类一模一样。

上海交大的研究者们提出了一个叫 HLL（Humanity's Last Line of Verification） 的基准测试，专门回答这个问题：AI 能不能跨过人类验证这条线？

答案让人松了一口气，但也让人后背发凉。

为什么验证码是 AI 的"最后一公里"？

过去两年，多模态 AI Agent 进步飞快。它们能浏览网页、操作手机 App、甚至帮你订机票。但几乎所有 Agent 评测都有一个盲区：验证码被过滤掉了。

想想看，WebArena、OSWorld 这些主流基准测试，遇到 CAPTCHA 页面就直接跳过。为什么？因为验证码太难了，它不是"看懂屏幕"那么简单——你需要：

1. 定位：在一堆乱七八糟的网页元素中找到验证码在哪 2. 理解：搞清楚这个验证码要你干什么（拖？点？选？拼？） 3. 执行：精确地操作界面（拖到像素级精度、按正确顺序点击） 4. 追踪：记住自己做了什么，判断是否完成 5. 提交：在正确的时间点提交答案

这不是视觉识别问题，这是一个完整的感知-行动闭环。

HLL 的设计哲学：把验证码拆成可控实验

HLL 的核心创新不是"又搞了一堆验证码"，而是把验证码评测做成了可控实验。

它定义了一个五元组：(f, d, ℓ, z, s)——任务类型、难度、干扰级别、是否动态验证、样本编号。这听起来像数学课，但背后的直觉很简单：

> 你考试不及格，是因为题太难（d），还是因为考场太吵（ℓ），还是因为你虽然蒙对了答案但过程不对（z）？

HLL 把这三个维度拆开，让你能精确诊断 AI 到底卡在哪。

十种验证码家族，四种能力维度

HLL 包含 10 种验证码类型，覆盖四大能力维度：

能力维度	验证码类型
识别与有序选择	文本转录、图标序列选择、自然图像序列选择
空间对齐与局部推理	滑块对齐、拼图对齐、缺失块选择
有状态拼图还原	棋盘重排、瓷砖还原
推理引导的语义交互	逻辑算术交互、类别引导的图像选择

注意，这不是简单的"看图选猫"。滑块对齐需要像素级精度，拼图还原需要追踪中间状态，逻辑算术需要先读懂规则再操作。

三个"压力轴"：让测试越来越像真实世界

1. 难度升级：更紧的容差、更相似的候选项、更复杂的还原状态 2. 环境干扰：干净页面 → 真实网页上下文 → 故意放诱饵的欺骗性页面 3. 动态验证：不只看最终答案对不对，还要看你的操作过程是否合理

第三个轴最狠。静态评测只看"答案对不对"，动态评测还要看"你是怎么做到的"。如果你蒙对了答案但操作轨迹像机器人（比如跳过了中间步骤），照样判失败。

实验结果：AI 离"替代人类"还有多远？

研究者测了 8 个前沿多模态 Agent，包括 GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、Claude-Sonnet-4.6、Grok-4、GLM-5V、MiniMax-M2.7、Qwen-Max。

干净环境下的静态测试

模型	平均通过率
Claude-Opus-4.6	90.0%
Gemini-3.1-Pro	73.8%
GPT-5.4	70.0%
Grok-4	58.2%
Claude-Sonnet-4.6	35.4%
GLM-5V	16.2%
MiniMax-M2.7	20.2%
Qwen-Max	9.4%

Claude-Opus-4.6 看起来很强，但注意——文本转录接近满分，而瓷砖还原只有 63%，棋盘重排只有 96.5%。不同验证码类型之间的差距巨大。

更关键的是：没有一个模型能在所有类型上都做到完美。AI 的能力是"偏科"的，不是"通才"。

加上干扰：性能断崖式下跌

当网页周围加了干扰元素后：

Claude-Opus-4.6 从 90.0% 降到 79.2%
Gemini-3.1-Pro 从 73.8% 降到 65.8%
Claude-Sonnet-4.6 从 35.4% 降到 26.0%
Qwen-Max 从 9.4% 降到 8.6%

干扰不是均匀地伤害所有模型——它放大了定位和接地能力的差距。弱模型在有干扰时几乎归零。

加大难度：强模型也开始翻车

在更难的变体上：

Claude-Opus-4.6 从 90.0% 降到 62.0%
GPT-5.4 从 70.0% 降到 37.0%
Gemini-3.1-Pro 从 73.8% 降到 24.0%
Qwen-Max 直接 0%

难度升级考验的是任务本身的感知-行动精度，不是环境适应能力。容差更紧、候选项更相似，AI 的精细操作能力就暴露了。

动态验证：最致命的一刀

这是最反直觉的结果。动态验证要求不仅答案对，操作过程也要合理：

模型	静态平均	动态平均	降幅
Gemini-3.1-Pro	71.3%	45.0%	-26.3
GPT-5.4	65.8%	26.3%	-39.5
Claude-Opus-4.6	88.0%	23.8%	-64.2
Grok-4	51.0%	11.3%	-39.7
Claude-Sonnet-4.6	29.6%	5.0%	-24.6

Claude-Opus-4.6 在静态测试中是最强的，但在动态验证中暴跌 64 个百分点。 它能"猜"对答案，但操作过程经不起审查。

这就像一个学生考试全对，但监考老师发现他的草稿纸是空白的——答案对了，过程不对。

失败模式：AI 到底卡在哪？

HLL 的精细设计让我们能诊断具体的失败模式：

1. 感知解码错误：扭曲文字读错、类别线索误判 2. 目标定位失败：找到了正确目标但点击坐标偏移 3. 空间接地失败：知道该拖到哪但拖不到位（像素级精度不够） 4. 状态追踪失败：拼图还原时忘了自己已经移了哪块 5. UI 理解失败：不知道哪个区域可以交互 6. 恢复与自纠失败：做错了无法回退修正

这些失败不是"看不清"那么简单——它们暴露了 AI 在闭环交互中的系统性缺陷。

为什么这件事比你想象的更重要？

你可能会想：验证码嘛，过不去就过不去，有什么大不了的？

大问题在于：验证码是 AI Agent 进入真实世界的最后一道门。

想象一下这些场景：

AI 帮你自动注册账号——但被验证码挡住
AI 帮你抢票——但提交订单前要过验证码
AI 帮你批量查询信息——但被反爬验证码拦截

验证码的设计初衷就是区分人和机器。如果 AI 能稳定通过验证码，那意味着整个互联网的反自动化基础设施都需要重新设计。

反过来，如果 AI 过不了验证码，那所有"AI 替你操作电脑"的承诺，在真实部署中都会卡在最后一公里。

HLL 的结论很明确：AI 还没准备好替代人类通过验证码。但差距在缩小，而且缩小的速度比很多人预期的要快。

工程洞察

对于做 Agent 开发的工程师，HLL 提供了几个关键启示：

1. 别只看最终答案：静态通过率会严重高估 Agent 的真实能力。加上过程验证后，性能可能腰斩。 2. 空间精度是瓶颈：Agent 不缺"看懂"的能力，缺的是"精确操作"的能力。拖动滑块差几个像素就是失败。 3. 状态追踪是被忽视的能力：多步交互中，Agent 需要记住自己做了什么、还差什么。这不是 LLM 的强项。 4. 干扰环境是真实环境：干净页面上的表现不能代表真实部署。Agent 必须学会在嘈杂页面中定位目标。 5. 评测设计比数据量更重要：HLL 只有 10 种验证码类型，但通过因子化设计（难度 × 干扰 × 动态），生成了 33 个评测单元，远比堆数据量更有诊断力。

开源代码

论文代码已开源：https://github.com/XinhaoS0101/HLL

个人思考

HLL 让我想起一个更深的问题：验证码的本质是什么？

它不是一道题，而是一份社会契约。网站说"证明你是人"，背后的假设是：有些事情对人来说很容易，对机器来说很难。这个假设正在被侵蚀。

但 HLL 的结果也给了我们一个缓冲：AI 虽然能"看懂"验证码，但在"像人一样操作"这件事上还有本质差距。差距不在感知，不在推理，而在接地——把抽象的理解转化为精确的物理行动。

这让我想到一个类比：AI 就像一个懂所有棋理但手抖的棋手。它知道该下哪一步，但手一抖，棋子落错了位置。在棋盘上，这叫失误；在验证码前，这叫"你不是人"。

也许，"手抖"才是人类最后的优势。

---

论文: HLL: Can Agents Cross Humanity's Last Line of Verification? 代码: github.com/XinhaoS0101/HLL 机构: 上海交通大学、山东大学、同济大学

AI 能过验证码吗？HLL 基准测试：人类最后一条防线还没被攻破

AI 能过验证码吗？HLL 基准测试：人类最后一条防线还没被攻破

为什么验证码是 AI 的"最后一公里"？

HLL 的设计哲学：把验证码拆成可控实验

十种验证码家族，四种能力维度

三个"压力轴"：让测试越来越像真实世界

实验结果：AI 离"替代人类"还有多远？

干净环境下的静态测试

加上干扰：性能断崖式下跌

加大难度：强模型也开始翻车

动态验证：最致命的一刀

失败模式：AI 到底卡在哪？

为什么这件事比你想象的更重要？

工程洞察

开源代码

个人思考

🌟 智谱 GLM-5 已上线