USENIX Security 2025 的 GradEscape 是第一个基于梯度的AI文本检测器规避器。它的目标是让AI生成的文本通过检测器,看起来像人写的。
关键突破是解决了文本离散性导致的"不可微"问题——通过构造加权嵌入输入,使检测器的反馈梯度能够反向传播到规避器模型中。这虽然只用了1.39亿参数(仅为标准的1/80),却能在四个数据集和三种语言模型上超越现有的规避工具,包括11B参数的改写模型。
更有意思的是:研究者分析了为什么AI文本检测器可以被攻破——根本原因是训练数据中表达风格的差异性。他们甚至成功攻破了两个商业AI文本检测器。
核心洞见:当检测器裁判和作弊者都在用梯度作战时,那是一个军备竞赛;但当作弊者找到了如何高效利用梯度信号的方法,那是一场信息不对称的单方面碾压。
[GradEscape / USENIX Security 2025]
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力