论文精选｜人类藏敏感词的11种方式：一个机制导向的间接语言编码分类法

> *"The medium is the message."* > — Marshall McLuhan

---

一、先看三个真实帖子

帖子 1（TikTok）： > "I just got my seggsuality back 🦷"

帖子 2（Bluesky）： > "Unc cooked the turkey fr fr"

帖子 3（TikTok）： > "Looking for a plug for 🍃 in the 614"

如果你不在特定社群里，这三个帖子可能让你一头雾水。但它们都在说同一件事：用某种编码方式隐藏敏感含义。

"seggsuality" = sexuality（性），用形近替换
"Unc" = uncle sam = US government（美国政府），用指代别名
"plug" = 毒贩，用约定俗成的社群术语
🦷 = tooth = "the tooth" = TikTok 内部黑话里的 "truth"
🍃 = weed（大麻），用 emoji 的视觉相似性
"614" = Columbus, Ohio，用区号代指地点

这些不是随机乱写。它们是间接语言编码（Indirect Linguistic Encoding, ILE）——人类用语言隐藏敏感含义的系统化策略。

问题来了：AI 能不能识别这些编码？

---

二、现有研究的碎片化困境

University of Virginia 的 Hamed Firoozfar 等人发现，在他们的研究之前，学术界对 ILE 的分类是碎片化的：

Zhang et al. (2014)：研究中文社交媒体的审查规避，分了 5 类（形近替换、字符拆解、翻译、语义重释、历史引用）。但只适用于中文，搬到英文就失效。
Renwick & Barbosa (2021)：关注字符级操作（leetspeak、标点插入、字形替换），但忽略了语义和约定层面的策略。
Calhoun & Fawcett (2023)：从正字法、形态学、音韵学、韵律、重新分析角度分类，但没有涵盖需要共享文化知识的间接策略。
Leal-Arenas & Corizzo (2024）：以 algospeak 为核心，分了缩写、音近拼写、符号替换、改写、重新赋义等，但层次混乱。

每个分类都只覆盖了一部分现象。更糟的是，分类标准取决于数据来源——研究中文的只看到中文策略，研究 algospeak 的只看到 algospeak 策略，没有统一的"编码-解码路径"框架。

这就像盲人摸象：每个人摸到的都是真象，但拼不出全象。

---

三、新分类法：11 类 × 33 子类

Firoozfar 团队用 Nickerson et al. (2013) 的迭代分类法方法论，经过 4 轮迭代（概念→实证→概念→实证），构建了一个以"编码-解码路径"为元特征的分类法。

关键设计决策：元特征是"how"（怎么编码），不是"why"（为什么编码）也不是"about what"（编码什么）。

为什么？因为"为什么"（审查规避、礼貌、群内认同）和"编码什么"（毒品、自残、性）会因平台、文化、时代而变，但"怎么编码"——从表面形式到隐藏含义的路径——是跨语境稳定的。

最终得到 11 个顶级类别：

1. 正字法变换（Orthographic Transformation）：改字形但保持可读性，如 leetspeak（"s3x"）、字形替换 2. 音韵替换（Phonetic Substitution）：用同音字编码，如 "seggs" = sex 3. 形式压缩（Formal Compression）：缩写、首字母缩略，如 "fr" = for real 4. 形式编码系统（Formal Encoding Systems）：有明确规则的编码，如 ROT13、Base64 5. 约定符号重赋义（Conventional Sign Reassignment）：已有符号赋予新义，如 🍃 = weed 6. 形态-词汇编码（Morpho-Lexical Encoding）：用构词法创造新词，如 "unalive" = kill 6. 指代别名编码（Referential Alias Encoding）：用实体别名代指，如 "Unc" = US government 8. 语义迂回（Semantic Circumlocution）：用描述性短语代替直接词，如 "the plant" = marijuana 9. 隐喻和转喻（Metaphorical and Metonymic Encoding）：跨域映射，如 "cook" = perform well 10. 图像和符号编码（Pictorial and Symbolic Encoding）：用 emoji 作为意义载体，如 🦷 = truth 11. 跨语言变换（Cross-Linguistic Transformation）：用其他语言或文字系统，如用拼音代中文敏感词

一个 token 可以同时触发多个类别。比如 "seggs" 同时是正字法变换（字形相似）和音韵替换（发音相似），"🍃" 同时是图像编码和约定符号重赋义。分类法不要求互斥，允许组合标注。

---

四、数据集：2000 个真实帖子

研究团队从两个平台采集了 2000 个英文帖子：

TikTok 视频描述（1400 条，2026 年 3-5 月）
Bluesky 帖子（600 条，2025 年 10 月-2026 年 1 月）

两个平台有不同的审核制度——TikTok 审核严格，Bluesky 相对宽松——这样可以观察不同审核压力下的编码策略差异。

采样用分层策略：一部分基于 ILE 种子词列表偏向采样，一部分随机采样。去掉纯 URL/hashtag/@提及的帖子，去掉认证机器人账号。

两位标注员独立标注所有帖子，在三个层级上：

文档级：是否包含 ILE（二元）
跨度级：标注 ILE 的最小连续 span
机制级：从 11 类中分配类别

标注一致性很高：

文档级 κ = 0.852
类别级 κ = 0.789
跨度级 κ = 0.886

最终 44.8% 的帖子包含至少一个 ILE 实例。接近一半。这说明 ILE 不是边缘现象，是社交媒体语言的常态。

---

五、实验：LLM + 新分类法 vs LLM + 旧分类法

研究团队用 3 个 LLM（GPT-5.4、Claude Sonnet 4.6、DeepSeek V4 Flash）× 6 种 prompt 变体做实验：

4 种现有分类法（Zhang、Calhoun & Fawcett、Fillies & Paschke、Leal-Arenas & Corizzo）
新提出的 11 类分类法
无分类法基线（让 LLM 自由判断）

所有 prompt 用相同的 4 个 few-shot 例子，只换嵌入的分类法部分。

还加了 4 个非 LLM 基线：TF-IDF + 逻辑回归、字符 n-gram + SVM、Word2Vec 余弦相似度、嵌入图中心性。

---

六、结果：新分类法全面领先

以 GPT-5.4 为例：

指标	无分类法	最佳旧分类法	新分类法	提升
文档准确率	78.5%	80.5%（Leal）	84.3%	+3.8pp
文档 F1	77.1%	79.6%（Leal）	83.9%	+4.3pp
跨度 F1	59.9%	64.0%（Leal）	66.2%	+2.2pp

三个 LLM 上，新分类法在文档级和跨度级 F1 上都最高。所有 LLM 变体都碾压非 LLM 基线（最佳 NLP 方法准确率只有 68.4%）。

但更重要的发现在类别级别。

6.1 部分分类法可能比没有分类法更差

在 "Formal Encoding Systems"（形式编码系统，如 ROT13）这一类上：

无分类法基线 recall = 0.587
Zhang 分类法 recall = 0.556
Calhoun 分类法 recall = 0.317
新分类法 recall = 0.952

Calhoun 分类法在这一类上比无分类法还差！因为它根本没有覆盖这类现象，给 LLM 的分类框架里没有"形式编码"这个类别，导致 LLM 看到 ROT13 也不知道归到哪，干脆不标。

一个不完整的分类法比没有分类法更糟——它不仅没帮忙，还限制了 LLM 的判断空间。

6.2 新分类法在"组合编码"上优势最大

真实帖子经常同时用多种编码策略。比如 "seggs 🦷" 同时是音韵替换 + 图像编码 + 约定符号重赋义。

在包含 2 种以上机制的"组合 ILE"上，新分类法的优势最明显：因为它允许一个 span 标注多个类别，而旧分类法大多要求互斥分类，遇到组合编码就抓瞎。

6.3 每一类的提升来源不同

Orthographic（正字法）：所有方法都还行，因为这是最显眼的表面操作
Formal Encoding（形式编码）：新分类法 +62.2% recall——因为只有新分类法把这个类别单独列出来
Referential Alias（指代别名）：新分类法 +20.8%——因为旧分类法不处理"用实体别名代指"这种需要文化知识的策略
Morpho-Lexical（形态-词汇）：新分类法 +24.2%——因为旧分类法没有"构词法"这个维度

分类法的覆盖度直接决定了 LLM 能识别什么。LLM 不是"看到什么就识别什么"，而是"分类法告诉它能看什么，它才看什么"。

---

七、为什么这项工作重要？

7.1 对内容审核的直接影响

当前内容审核系统主要靠关键词匹配和分类器。但 ILE 的本质是绕过关键词——"seggs" 不在 sexuality 的关键词列表里，"🍃" 在大部分审核系统里只是个 emoji。

如果审核系统不理解编码机制，就只能被动追赶：用户发明一个新编码，系统标注一批数据，训练一个分类器，上线——然后用户又发明新编码。这是猫鼠游戏。

新分类法提供了一个机制级框架：不管具体编码是什么，它一定属于 11 种路径之一。审核系统可以针对每种路径设计检测策略，而不是针对每个具体编码实例。这是从"打地鼠"到"打洞"的范式转换。

7.2 对 AI 安全的启示

LLM 自己也会被用来生成 ILE——绕过安全过滤、生成隐晦的有害内容、在群内传播暗号。如果 LLM 能识别 ILE，它也应该能生成 ILE。理解编码机制是防御的第一步。

更深层的问题是：LLM 对 ILE 的理解依赖分类法框架。这意味着 LLM 的"理解"不是通用的模式识别，而是被提供的框架约束的。换个框架，同一个 LLM 的表现可以差 20 个百分点。这对"LLM 是否真正理解语言"的争论是一个重要的数据点。

7.3 对语言学分类方法论的贡献

这项工作还给计算语言学贡献了一个方法论示范：用 Nickerson 迭代分类法构建计算可用的分类体系。很多 NLP 任务还在用 ad hoc 的分类（"我觉得应该分这几类"），而不是系统化的迭代构建。这篇论文展示了怎么把分类法构建本身当成一个可复现的研究流程。

---

八、诚实评价：这项工作的边界

1. 只有英文数据。中文、俄文、阿拉伯文的 ILE 策略可能完全不同。Zhang et al. (2014) 的中文分类法有 5 类，和新分类法的 11 类重叠有限。跨语言泛化需要更多验证。 2. 2 个平台。Reddit、Twitter/X、Telegram、Discord 上的 ILE 可能不同。TikTok 和 Bluesky 都是相对短文本平台，长文本 ILE 可能更复杂。 3. 44.8% 的 ILE 比例可能偏高。因为采样时用了种子词偏向采样，真实分布可能更低。研究者也承认这一点。 4. LLM few-shot 设置。所有实验用 4-shot。如果用 fine-tuning 或更长的上下文，结果可能不同。 5. 标注者只有 2 人。虽然一致性高，但 2 人的主观性仍然存在。更多标注者能增强可信度。 6. 分类法是静态的。ILE 是动态演化的——新编码每天都在诞生。分类法需要持续更新机制，但论文没有讨论这一点。

---

九、收尾：McLuhan 的预言

1964 年，Marshall McLuhan 说"The medium is the message"——媒介即信息。意思是：传递方式本身塑造了信息的意义。

ILE 是这句话的完美例证。当一个人写 "seggs" 而不是 "sex" 时，她不仅仅是在绕过审核——她在声明"我属于这个社群"、"我知道这个规则"、"我愿意为这个表达付出额外的字符成本"。编码方式本身就是社交信号。

Firoozfar 团队的 11 类分类法，本质上是在说：人类用 11 种基本方式把敏感含义藏进表面形式。不管平台怎么变、语言怎么变、文化怎么变，这 11 条路径是稳定的。

而 AI 要真正理解人类语言，就必须理解这 11 条路径——不是作为关键词列表，而是作为编码-解码的机制。

因为语言不只是说什么，还是怎么说。而"怎么说"往往比"说什么"更重要。

---

论文链接：arXiv:2606.27314 代码和数据：github.com/hmdfiroozfar/mechanism-oriented-ile-taxonomy 作者：Hamed Firoozfar, Sina Firoozfar, Amir Karami（University of Virginia & University of South Carolina）