正在加载...

请稍候

返回主题列表

论文精选｜algospeak的七种暗语机制：TikTok用户如何骗过算法审核

✨步子哥 (steper) • 2026年06月28日 17:53

你在TikTok上看到一条评论："I'm so corn 🌽 tired of this seggs 🥵". 人类一眼就懂——"corn"是"porn"的algospeak，"seggs"是"sex"的谐音变体。但算法审核系统看到的是两个不相关的词。

这就是间接语言编码（Indirect Linguistic Encoding, ILE）的世界——社交媒体用户为了绕过算法审核、避免被限流或 demonetize，发明了一套越来越精巧的暗语系统。这些暗语的生命周期以周计，旧的被算法学会，新的又冒出来。

这篇来自犹他大学的论文（arXiv:2606.27314）做了一件此前没人系统做过的事：不按"为什么编码"（避审、礼貌、群体认同），而是按"怎么编码"——把所有暗语机制分成7大类，建了一个面向机制的分类法。

为什么需要机制分类法

此前的ILE分类法有几个问题：

窄：只覆盖部分机制（比如只看表面扰动 coc@!ne → cocaine）
混：编码路径和解码路径混在一起
抽象层级不一致：有时候按意图分（"避审"），有时候按形式分（"谐音"）

作者的核心洞察是：意图和内容是变化的，但编码机制是有限的。用户可能为了讨论毒品、自残、性——但编码手段无非就是那几种操作。把机制抽象出来，分类法才能稳定。

七大机制分类法

论文提出的7个顶层类别（用Nickerson et al. 2013的迭代方法构建）：

C1: 正字变换（Orthographic Transformation）

修改语言形式但保持人类可读性，靠视觉相似性恢复。例：coc@!ne → cocaine，f@ck → fuck。关键：人类靠感知归一化恢复，算法的tokenizer会被打断。

C2: 语音替换（Phonetic Substitution）

利用语音相似性编码，靠声音重建恢复。例：seggs → sex，unalive → suicide（TikTok经典）。在多语言和code-mixing场景下尤其有效。

C3: 形式压缩（Formal Compression）

缩短为紧凑形式，靠社区共识恢复。例：SA → sexual assault，SH → self-harm。语义不能从形式本身推出，必须知道社区约定。

C4: 形式编码系统（Formal Encoding Systems）

通过显式、可逆的规则隐藏意义，独立于语言结构。例：Leet speak（1337 → leet），反转拼写。解码需要程序性规则反转——这是此前分类法覆盖最差的一类。

C5: 约定符号重赋值（Conventional Sign Reassignment）

表面形式不变，但社区赋予新含义。例：🌽（玉米emoji）→ porn，🍑 → ass。恢复靠检索存储的"符号-意义"关联，不是计算出来的。

C6: 词法-形态编码（Morpho-Lexical Encoding）

利用能产的构词过程构造新形式。例：pornstarring → being a porn star（动词化），drug-fueled → 用构词法嵌入敏感语义。

C7: 指称别名编码（Referential Alias Encoding）

用特定实体的替代标签替换原名。例：用"那个佛罗里达男人"指代某个政治人物，用"某岛"指代某个地区。恢复依赖共享的文化或声誉知识。

一个帖子可以同时用三种机制

论文里有一个精彩的例子：一个TikTok创作者想表达"porn star"，但搜索"pornstar"什么也搜不到。于是ta用了三个emoji组合：

🍑（iconic resemblance - 视觉相似性，C1）
🌽（attribute-based alias - 属性关联，C7）
⭐（name-based pictorial mapping - 名称映射，C5）

三个机制叠加，人类秒懂，算法完全看不出来。

实验结果

在2000条人工标注的TikTok和Bluesky帖子上的实验：

新分类法 vs 4个已有分类法 + 无分类法基线：新分类法在3个LLM上全面胜出
准确率提升4.7%，F1提升5.4%（相对最强基线）
提升最大的类别：C4（形式编码系统）+62.2%，C6（词法-形态编码）+24.3%，C7（指称别名编码）+20.8%——都是此前分类法覆盖差或完全不覆盖的类别
消融实验：去掉任何一个类别都会降低性能，说明7类缺一不可

一个反直觉的发现：使用不完整的分类法比不用分类法还差。这说明给LLM一个部分框架，反而会限制它本来的识别能力——要么给完整的，要么不给。

为什么这很重要

这篇论文的深层贡献不是"又一个分类法"，而是一个范式转换：

从"检测特定暗语"到"理解编码机制"。

暗语词典每周都在过时——"seggs"被算法学会后，下周可能变成"segs"或"s3ggs"。但"语音替换"这个机制永远存在。只要LLM理解了机制，就能泛化到从未见过的新暗语。

这和AI安全里的"对抗性样本"研究异曲同工：你无法枚举所有攻击，但你可以理解攻击的机制空间。这篇论文为内容审核提供了一个更稳定的脚手架——不是追着暗语跑，而是守住机制的出口。

论文信息

标题: Beyond Surface Forms: A Comprehensive, Mechanism-Oriented Taxonomy of Indirect Linguistic Encoding for LLM-Based Coded Language Detection
作者: Hamid Reza Firoozfar, Mohammadsadegh Abolhasani, Reza Mousavi, Paul Jen-Hwa Hu
机构: University of Utah, University of Virginia
arXiv: https://arxiv.org/abs/2606.27314
代码: https://github.com/hmdfiroozfar/mechanism-oriented-ile-taxonomy
数据: 2000条TikTok + Bluesky人工标注帖子（TikTok部分因数据协议不公开）

讨论回复

加载中...

正在加载回复...

友情链接： AI魔控网 | 艮岳网 | 老薛主机 | 口笛 - PPT智能讲解 | 步子哥的博客 | 3R教室

需要登录才能发表回复

登录注册

推荐

智谱 BigModel

推荐

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力