论文精选|人类藏敏感词的11种方式:一个机制导向的间接语言编码分类法
> *"The medium is the message."* > — Marshall McLuhan
---
一、先看三个真实帖子
帖子 1(TikTok): > "I just got my seggsuality back 🦷"
帖子 2(Bluesky): > "Unc cooked the turkey fr fr"
帖子 3(TikTok): > "Looking for a plug for 🍃 in the 614"
如果你不在特定社群里,这三个帖子可能让你一头雾水。但它们都在说同一件事:用某种编码方式隐藏敏感含义。
- "seggsuality" = sexuality(性),用形近替换
- "Unc" = uncle sam = US government(美国政府),用指代别名
- "plug" = 毒贩,用约定俗成的社群术语
- 🦷 = tooth = "the tooth" = TikTok 内部黑话里的 "truth"
- 🍃 = weed(大麻),用 emoji 的视觉相似性
- "614" = Columbus, Ohio,用区号代指地点
问题来了:AI 能不能识别这些编码?
---
二、现有研究的碎片化困境
University of Virginia 的 Hamed Firoozfar 等人发现,在他们的研究之前,学术界对 ILE 的分类是碎片化的:
- Zhang et al. (2014):研究中文社交媒体的审查规避,分了 5 类(形近替换、字符拆解、翻译、语义重释、历史引用)。但只适用于中文,搬到英文就失效。
- Renwick & Barbosa (2021):关注字符级操作(leetspeak、标点插入、字形替换),但忽略了语义和约定层面的策略。
- Calhoun & Fawcett (2023):从正字法、形态学、音韵学、韵律、重新分析角度分类,但没有涵盖需要共享文化知识的间接策略。
- Leal-Arenas & Corizzo (2024):以 algospeak 为核心,分了缩写、音近拼写、符号替换、改写、重新赋义等,但层次混乱。
这就像盲人摸象:每个人摸到的都是真象,但拼不出全象。
---
三、新分类法:11 类 × 33 子类
Firoozfar 团队用 Nickerson et al. (2013) 的迭代分类法方法论,经过 4 轮迭代(概念→实证→概念→实证),构建了一个以"编码-解码路径"为元特征的分类法。
关键设计决策:元特征是"how"(怎么编码),不是"why"(为什么编码)也不是"about what"(编码什么)。
为什么?因为"为什么"(审查规避、礼貌、群内认同)和"编码什么"(毒品、自残、性)会因平台、文化、时代而变,但"怎么编码"——从表面形式到隐藏含义的路径——是跨语境稳定的。
最终得到 11 个顶级类别:
1. 正字法变换(Orthographic Transformation):改字形但保持可读性,如 leetspeak("s3x")、字形替换 2. 音韵替换(Phonetic Substitution):用同音字编码,如 "seggs" = sex 3. 形式压缩(Formal Compression):缩写、首字母缩略,如 "fr" = for real 4. 形式编码系统(Formal Encoding Systems):有明确规则的编码,如 ROT13、Base64 5. 约定符号重赋义(Conventional Sign Reassignment):已有符号赋予新义,如 🍃 = weed 6. 形态-词汇编码(Morpho-Lexical Encoding):用构词法创造新词,如 "unalive" = kill 6. 指代别名编码(Referential Alias Encoding):用实体别名代指,如 "Unc" = US government 8. 语义迂回(Semantic Circumlocution):用描述性短语代替直接词,如 "the plant" = marijuana 9. 隐喻和转喻(Metaphorical and Metonymic Encoding):跨域映射,如 "cook" = perform well 10. 图像和符号编码(Pictorial and Symbolic Encoding):用 emoji 作为意义载体,如 🦷 = truth 11. 跨语言变换(Cross-Linguistic Transformation):用其他语言或文字系统,如用拼音代中文敏感词
一个 token 可以同时触发多个类别。比如 "seggs" 同时是正字法变换(字形相似)和音韵替换(发音相似),"🍃" 同时是图像编码和约定符号重赋义。分类法不要求互斥,允许组合标注。
---
四、数据集:2000 个真实帖子
研究团队从两个平台采集了 2000 个英文帖子:
- TikTok 视频描述(1400 条,2026 年 3-5 月)
- Bluesky 帖子(600 条,2025 年 10 月-2026 年 1 月)
采样用分层策略:一部分基于 ILE 种子词列表偏向采样,一部分随机采样。去掉纯 URL/hashtag/@提及的帖子,去掉认证机器人账号。
两位标注员独立标注所有帖子,在三个层级上:
- 文档级:是否包含 ILE(二元)
- 跨度级:标注 ILE 的最小连续 span
- 机制级:从 11 类中分配类别
- 文档级 κ = 0.852
- 类别级 κ = 0.789
- 跨度级 κ = 0.886
---
五、实验:LLM + 新分类法 vs LLM + 旧分类法
研究团队用 3 个 LLM(GPT-5.4、Claude Sonnet 4.6、DeepSeek V4 Flash)× 6 种 prompt 变体做实验:
- 4 种现有分类法(Zhang、Calhoun & Fawcett、Fillies & Paschke、Leal-Arenas & Corizzo)
- 新提出的 11 类分类法
- 无分类法基线(让 LLM 自由判断)
还加了 4 个非 LLM 基线:TF-IDF + 逻辑回归、字符 n-gram + SVM、Word2Vec 余弦相似度、嵌入图中心性。
---
六、结果:新分类法全面领先
以 GPT-5.4 为例:
| 指标 | 无分类法 | 最佳旧分类法 | 新分类法 | 提升 |
|---|---|---|---|---|
| 文档准确率 | 78.5% | 80.5%(Leal) | 84.3% | +3.8pp |
| 文档 F1 | 77.1% | 79.6%(Leal) | 83.9% | +4.3pp |
| 跨度 F1 | 59.9% | 64.0%(Leal) | 66.2% | +2.2pp |
但更重要的发现在类别级别。
6.1 部分分类法可能比没有分类法更差
在 "Formal Encoding Systems"(形式编码系统,如 ROT13)这一类上:
- 无分类法基线 recall = 0.587
- Zhang 分类法 recall = 0.556
- Calhoun 分类法 recall = 0.317
- 新分类法 recall = 0.952
一个不完整的分类法比没有分类法更糟——它不仅没帮忙,还限制了 LLM 的判断空间。
6.2 新分类法在"组合编码"上优势最大
真实帖子经常同时用多种编码策略。比如 "seggs 🦷" 同时是音韵替换 + 图像编码 + 约定符号重赋义。
在包含 2 种以上机制的"组合 ILE"上,新分类法的优势最明显:因为它允许一个 span 标注多个类别,而旧分类法大多要求互斥分类,遇到组合编码就抓瞎。
6.3 每一类的提升来源不同
- Orthographic(正字法):所有方法都还行,因为这是最显眼的表面操作
- Formal Encoding(形式编码):新分类法 +62.2% recall——因为只有新分类法把这个类别单独列出来
- Referential Alias(指代别名):新分类法 +20.8%——因为旧分类法不处理"用实体别名代指"这种需要文化知识的策略
- Morpho-Lexical(形态-词汇):新分类法 +24.2%——因为旧分类法没有"构词法"这个维度
---
七、为什么这项工作重要?
7.1 对内容审核的直接影响
当前内容审核系统主要靠关键词匹配和分类器。但 ILE 的本质是绕过关键词——"seggs" 不在 sexuality 的关键词列表里,"🍃" 在大部分审核系统里只是个 emoji。
如果审核系统不理解编码机制,就只能被动追赶:用户发明一个新编码,系统标注一批数据,训练一个分类器,上线——然后用户又发明新编码。这是猫鼠游戏。
新分类法提供了一个机制级框架:不管具体编码是什么,它一定属于 11 种路径之一。审核系统可以针对每种路径设计检测策略,而不是针对每个具体编码实例。这是从"打地鼠"到"打洞"的范式转换。
7.2 对 AI 安全的启示
LLM 自己也会被用来生成 ILE——绕过安全过滤、生成隐晦的有害内容、在群内传播暗号。如果 LLM 能识别 ILE,它也应该能生成 ILE。理解编码机制是防御的第一步。
更深层的问题是:LLM 对 ILE 的理解依赖分类法框架。这意味着 LLM 的"理解"不是通用的模式识别,而是被提供的框架约束的。换个框架,同一个 LLM 的表现可以差 20 个百分点。这对"LLM 是否真正理解语言"的争论是一个重要的数据点。
7.3 对语言学分类方法论的贡献
这项工作还给计算语言学贡献了一个方法论示范:用 Nickerson 迭代分类法构建计算可用的分类体系。很多 NLP 任务还在用 ad hoc 的分类("我觉得应该分这几类"),而不是系统化的迭代构建。这篇论文展示了怎么把分类法构建本身当成一个可复现的研究流程。
---
八、诚实评价:这项工作的边界
1. 只有英文数据。中文、俄文、阿拉伯文的 ILE 策略可能完全不同。Zhang et al. (2014) 的中文分类法有 5 类,和新分类法的 11 类重叠有限。跨语言泛化需要更多验证。 2. 2 个平台。Reddit、Twitter/X、Telegram、Discord 上的 ILE 可能不同。TikTok 和 Bluesky 都是相对短文本平台,长文本 ILE 可能更复杂。 3. 44.8% 的 ILE 比例可能偏高。因为采样时用了种子词偏向采样,真实分布可能更低。研究者也承认这一点。 4. LLM few-shot 设置。所有实验用 4-shot。如果用 fine-tuning 或更长的上下文,结果可能不同。 5. 标注者只有 2 人。虽然一致性高,但 2 人的主观性仍然存在。更多标注者能增强可信度。 6. 分类法是静态的。ILE 是动态演化的——新编码每天都在诞生。分类法需要持续更新机制,但论文没有讨论这一点。
---
九、收尾:McLuhan 的预言
1964 年,Marshall McLuhan 说"The medium is the message"——媒介即信息。意思是:传递方式本身塑造了信息的意义。
ILE 是这句话的完美例证。当一个人写 "seggs" 而不是 "sex" 时,她不仅仅是在绕过审核——她在声明"我属于这个社群"、"我知道这个规则"、"我愿意为这个表达付出额外的字符成本"。编码方式本身就是社交信号。
Firoozfar 团队的 11 类分类法,本质上是在说:人类用 11 种基本方式把敏感含义藏进表面形式。不管平台怎么变、语言怎么变、文化怎么变,这 11 条路径是稳定的。
而 AI 要真正理解人类语言,就必须理解这 11 条路径——不是作为关键词列表,而是作为编码-解码的机制。
因为语言不只是说什么,还是怎么说。而"怎么说"往往比"说什么"更重要。
---
论文链接:arXiv:2606.27314 代码和数据:github.com/hmdfiroozfar/mechanism-oriented-ile-taxonomy 作者:Hamed Firoozfar, Sina Firoozfar, Amir Karami(University of Virginia & University of South Carolina)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens