AI 能过验证码吗?HLL 基准测试:人类最后一条防线还没被攻破
你打开一个网站,准备注册账号。屏幕上弹出一个验证码——把滑块拖到缺口处。你三秒钟搞定,心想这也太简单了。
但如果让 AI 来做呢?
不是那种"识别图片中的红绿灯"的静态分类,而是真刀真枪地操作浏览器:找到验证码在哪、理解交互规则、精确地拖动滑块、点击正确顺序的图标、拼好一个拼图——然后提交。整个过程,和人类一模一样。
上海交大的研究者们提出了一个叫 HLL(Humanity's Last Line of Verification) 的基准测试,专门回答这个问题:AI 能不能跨过人类验证这条线?
答案让人松了一口气,但也让人后背发凉。
为什么验证码是 AI 的"最后一公里"?
过去两年,多模态 AI Agent 进步飞快。它们能浏览网页、操作手机 App、甚至帮你订机票。但几乎所有 Agent 评测都有一个盲区:验证码被过滤掉了。
想想看,WebArena、OSWorld 这些主流基准测试,遇到 CAPTCHA 页面就直接跳过。为什么?因为验证码太难了,它不是"看懂屏幕"那么简单——你需要:
- 定位:在一堆乱七八糟的网页元素中找到验证码在哪
- 理解:搞清楚这个验证码要你干什么(拖?点?选?拼?)
- 执行:精确地操作界面(拖到像素级精度、按正确顺序点击)
- 追踪:记住自己做了什么,判断是否完成
- 提交:在正确的时间点提交答案
这不是视觉识别问题,这是一个完整的感知-行动闭环。
HLL 的设计哲学:把验证码拆成可控实验
HLL 的核心创新不是"又搞了一堆验证码",而是把验证码评测做成了可控实验。
它定义了一个五元组:(f, d, ℓ, z, s)——任务类型、难度、干扰级别、是否动态验证、样本编号。这听起来像数学课,但背后的直觉很简单:
你考试不及格,是因为题太难(d),还是因为考场太吵(ℓ),还是因为你虽然蒙对了答案但过程不对(z)?
HLL 把这三个维度拆开,让你能精确诊断 AI 到底卡在哪。
十种验证码家族,四种能力维度
HLL 包含 10 种验证码类型,覆盖四大能力维度:
| 能力维度 | 验证码类型 |
|---|---|
| 识别与有序选择 | 文本转录、图标序列选择、自然图像序列选择 |
| 空间对齐与局部推理 | 滑块对齐、拼图对齐、缺失块选择 |
| 有状态拼图还原 | 棋盘重排、瓷砖还原 |
| 推理引导的语义交互 | 逻辑算术交互、类别引导的图像选择 |
注意,这不是简单的"看图选猫"。滑块对齐需要像素级精度,拼图还原需要追踪中间状态,逻辑算术需要先读懂规则再操作。
三个"压力轴":让测试越来越像真实世界
- 难度升级:更紧的容差、更相似的候选项、更复杂的还原状态
- 环境干扰:干净页面 → 真实网页上下文 → 故意放诱饵的欺骗性页面
- 动态验证:不只看最终答案对不对,还要看你的操作过程是否合理
第三个轴最狠。静态评测只看"答案对不对",动态评测还要看"你是怎么做到的"。如果你蒙对了答案但操作轨迹像机器人(比如跳过了中间步骤),照样判失败。
实验结果:AI 离"替代人类"还有多远?
研究者测了 8 个前沿多模态 Agent,包括 GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、Claude-Sonnet-4.6、Grok-4、GLM-5V、MiniMax-M2.7、Qwen-Max。
干净环境下的静态测试
| 模型 | 平均通过率 |
|---|---|
| Claude-Opus-4.6 | 90.0% |
| Gemini-3.1-Pro | 73.8% |
| GPT-5.4 | 70.0% |
| Grok-4 | 58.2% |
| Claude-Sonnet-4.6 | 35.4% |
| GLM-5V | 16.2% |
| MiniMax-M2.7 | 20.2% |
| Qwen-Max | 9.4% |
Claude-Opus-4.6 看起来很强,但注意——文本转录接近满分,而瓷砖还原只有 63%,棋盘重排只有 96.5%。不同验证码类型之间的差距巨大。
更关键的是:没有一个模型能在所有类型上都做到完美。AI 的能力是"偏科"的,不是"通才"。
加上干扰:性能断崖式下跌
当网页周围加了干扰元素后:
- Claude-Opus-4.6 从 90.0% 降到 79.2%
- Gemini-3.1-Pro 从 73.8% 降到 65.8%
- Claude-Sonnet-4.6 从 35.4% 降到 26.0%
- Qwen-Max 从 9.4% 降到 8.6%
干扰不是均匀地伤害所有模型——它放大了定位和接地能力的差距。弱模型在有干扰时几乎归零。
加大难度:强模型也开始翻车
在更难的变体上:
- Claude-Opus-4.6 从 90.0% 降到 62.0%
- GPT-5.4 从 70.0% 降到 37.0%
- Gemini-3.1-Pro 从 73.8% 降到 24.0%
- Qwen-Max 直接 0%
难度升级考验的是任务本身的感知-行动精度,不是环境适应能力。容差更紧、候选项更相似,AI 的精细操作能力就暴露了。
动态验证:最致命的一刀
这是最反直觉的结果。动态验证要求不仅答案对,操作过程也要合理:
| 模型 | 静态平均 | 动态平均 | 降幅 |
|---|---|---|---|
| Gemini-3.1-Pro | 71.3% | 45.0% | -26.3 |
| GPT-5.4 | 65.8% | 26.3% | -39.5 |
| Claude-Opus-4.6 | 88.0% | 23.8% | -64.2 |
| Grok-4 | 51.0% | 11.3% | -39.7 |
| Claude-Sonnet-4.6 | 29.6% | 5.0% | -24.6 |
Claude-Opus-4.6 在静态测试中是最强的,但在动态验证中暴跌 64 个百分点。 它能"猜"对答案,但操作过程经不起审查。
这就像一个学生考试全对,但监考老师发现他的草稿纸是空白的——答案对了,过程不对。
失败模式:AI 到底卡在哪?
HLL 的精细设计让我们能诊断具体的失败模式:
- 感知解码错误:扭曲文字读错、类别线索误判
- 目标定位失败:找到了正确目标但点击坐标偏移
- 空间接地失败:知道该拖到哪但拖不到位(像素级精度不够)
- 状态追踪失败:拼图还原时忘了自己已经移了哪块
- UI 理解失败:不知道哪个区域可以交互
- 恢复与自纠失败:做错了无法回退修正
这些失败不是"看不清"那么简单——它们暴露了 AI 在闭环交互中的系统性缺陷。
为什么这件事比你想象的更重要?
你可能会想:验证码嘛,过不去就过不去,有什么大不了的?
大问题在于:验证码是 AI Agent 进入真实世界的最后一道门。
想象一下这些场景:
- AI 帮你自动注册账号——但被验证码挡住
- AI 帮你抢票——但提交订单前要过验证码
- AI 帮你批量查询信息——但被反爬验证码拦截
验证码的设计初衷就是区分人和机器。如果 AI 能稳定通过验证码,那意味着整个互联网的反自动化基础设施都需要重新设计。
反过来,如果 AI 过不了验证码,那所有"AI 替你操作电脑"的承诺,在真实部署中都会卡在最后一公里。
HLL 的结论很明确:AI 还没准备好替代人类通过验证码。但差距在缩小,而且缩小的速度比很多人预期的要快。
工程洞察
对于做 Agent 开发的工程师,HLL 提供了几个关键启示:
- 别只看最终答案:静态通过率会严重高估 Agent 的真实能力。加上过程验证后,性能可能腰斩。
- 空间精度是瓶颈:Agent 不缺"看懂"的能力,缺的是"精确操作"的能力。拖动滑块差几个像素就是失败。
- 状态追踪是被忽视的能力:多步交互中,Agent 需要记住自己做了什么、还差什么。这不是 LLM 的强项。
- 干扰环境是真实环境:干净页面上的表现不能代表真实部署。Agent 必须学会在嘈杂页面中定位目标。
- 评测设计比数据量更重要:HLL 只有 10 种验证码类型,但通过因子化设计(难度 × 干扰 × 动态),生成了 33 个评测单元,远比堆数据量更有诊断力。
开源代码
论文代码已开源:https://github.com/XinhaoS0101/HLL
个人思考
HLL 让我想起一个更深的问题:验证码的本质是什么?
它不是一道题,而是一份社会契约。网站说"证明你是人",背后的假设是:有些事情对人来说很容易,对机器来说很难。这个假设正在被侵蚀。
但 HLL 的结果也给了我们一个缓冲:AI 虽然能"看懂"验证码,但在"像人一样操作"这件事上还有本质差距。差距不在感知,不在推理,而在接地——把抽象的理解转化为精确的物理行动。
这让我想到一个类比:AI 就像一个懂所有棋理但手抖的棋手。它知道该下哪一步,但手一抖,棋子落错了位置。在棋盘上,这叫失误;在验证码前,这叫"你不是人"。
也许,"手抖"才是人类最后的优势。
论文: HLL: Can Agents Cross Humanity's Last Line of Verification?
代码: github.com/XinhaoS0101/HLL
机构: 上海交通大学、山东大学、同济大学
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。