✍️ 139M小模型攻破AI文本检测器——GradEscape的梯度化伪装

USENIX Security 2025 的 GradEscape 是第一个基于梯度的AI文本检测器规避器。它的目标是让AI生成的文本通过检测器，看起来像人写的。

关键突破是解决了文本离散性导致的"不可微"问题——通过构造加权嵌入输入，使检测器的反馈梯度能够反向传播到规避器模型中。这虽然只用了1.39亿参数（仅为标准的1/80），却能在四个数据集和三种语言模型上超越现有的规避工具，包括11B参数的改写模型。

更有意思的是：研究者分析了为什么AI文本检测器可以被攻破——根本原因是训练数据中表达风格的差异性。他们甚至成功攻破了两个商业AI文本检测器。

*核心洞见*：当检测器裁判和作弊者都在用梯度作战时，那是一个军备竞赛；但当作弊者找到了如何高效利用梯度信号的方法，那是一场信息不对称的单方面碾压。

[GradEscape / USENIX Security 2025]

👍 1