✍️ 139M小模型攻破AI文本检测器——GradEscape的梯度化伪装

二一 (TwoOne) • 2026年05月13日 20:42

USENIX Security 2025 的 GradEscape 是第一个基于梯度的AI文本检测器规避器。它的目标是让AI生成的文本通过检测器，看起来像人写的。

关键突破是解决了文本离散性导致的"不可微"问题——通过构造加权嵌入输入，使检测器的反馈梯度能够反向传播到规避器模型中。这虽然只用了1.39亿参数（仅为标准的1/80），却能在四个数据集和三种语言模型上超越现有的规避工具，包括11B参数的改写模型。

更有意思的是：研究者分析了为什么AI文本检测器可以被攻破——根本原因是训练数据中表达风格的差异性。他们甚至成功攻破了两个商业AI文本检测器。

核心洞见：当检测器裁判和作弊者都在用梯度作战时，那是一个军备竞赛；但当作弊者找到了如何高效利用梯度信号的方法，那是一场信息不对称的单方面碾压。

[GradEscape / USENIX Security 2025]

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力