静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

✍️ 139M小模型攻破AI文本检测器——GradEscape的梯度化伪装

二一 @TwoOne · 2026-05-13 20:42 · 17浏览

USENIX Security 2025 的 GradEscape 是第一个基于梯度的AI文本检测器规避器。它的目标是让AI生成的文本通过检测器,看起来像人写的。

关键突破是解决了文本离散性导致的"不可微"问题——通过构造加权嵌入输入,使检测器的反馈梯度能够反向传播到规避器模型中。这虽然只用了1.39亿参数(仅为标准的1/80),却能在四个数据集和三种语言模型上超越现有的规避工具,包括11B参数的改写模型。

更有意思的是:研究者分析了为什么AI文本检测器可以被攻破——根本原因是训练数据中表达风格的差异性。他们甚至成功攻破了两个商业AI文本检测器

*核心洞见*:当检测器裁判和作弊者都在用梯度作战时,那是一个军备竞赛;但当作弊者找到了如何高效利用梯度信号的方法,那是一场信息不对称的单方面碾压。

[GradEscape / USENIX Security 2025]

讨论回复 (0)