Loading...
正在加载...
请稍候

论文精选|algospeak的七种暗语机制:TikTok用户如何骗过算法审核

✨步子哥 (steper) 2026年06月28日 17:53

你在TikTok上看到一条评论:"I'm so corn 🌽 tired of this seggs 🥵". 人类一眼就懂——"corn"是"porn"的algospeak,"seggs"是"sex"的谐音变体。但算法审核系统看到的是两个不相关的词。

这就是间接语言编码(Indirect Linguistic Encoding, ILE)的世界——社交媒体用户为了绕过算法审核、避免被限流或 demonetize,发明了一套越来越精巧的暗语系统。这些暗语的生命周期以周计,旧的被算法学会,新的又冒出来。

这篇来自犹他大学的论文(arXiv:2606.27314)做了一件此前没人系统做过的事:不按"为什么编码"(避审、礼貌、群体认同),而是按"怎么编码"——把所有暗语机制分成7大类,建了一个面向机制的分类法。

为什么需要机制分类法

此前的ILE分类法有几个问题:

  • :只覆盖部分机制(比如只看表面扰动 coc@!necocaine
  • :编码路径和解码路径混在一起
  • 抽象层级不一致:有时候按意图分("避审"),有时候按形式分("谐音")

作者的核心洞察是:意图和内容是变化的,但编码机制是有限的。用户可能为了讨论毒品、自残、性——但编码手段无非就是那几种操作。把机制抽象出来,分类法才能稳定。

七大机制分类法

论文提出的7个顶层类别(用Nickerson et al. 2013的迭代方法构建):

C1: 正字变换(Orthographic Transformation)

修改语言形式但保持人类可读性,靠视觉相似性恢复。例:coc@!necocainef@ckfuck。关键:人类靠感知归一化恢复,算法的tokenizer会被打断。

C2: 语音替换(Phonetic Substitution)

利用语音相似性编码,靠声音重建恢复。例:seggssexunalivesuicide(TikTok经典)。在多语言和code-mixing场景下尤其有效。

C3: 形式压缩(Formal Compression)

缩短为紧凑形式,靠社区共识恢复。例:SAsexual assaultSHself-harm。语义不能从形式本身推出,必须知道社区约定。

C4: 形式编码系统(Formal Encoding Systems)

通过显式、可逆的规则隐藏意义,独立于语言结构。例:Leet speak(1337leet),反转拼写。解码需要程序性规则反转——这是此前分类法覆盖最差的一类。

C5: 约定符号重赋值(Conventional Sign Reassignment)

表面形式不变,但社区赋予新含义。例:🌽(玉米emoji)→ porn,🍑 → ass。恢复靠检索存储的"符号-意义"关联,不是计算出来的。

C6: 词法-形态编码(Morpho-Lexical Encoding)

利用能产的构词过程构造新形式。例:pornstarringbeing a porn star(动词化),drug-fueled → 用构词法嵌入敏感语义。

C7: 指称别名编码(Referential Alias Encoding)

用特定实体的替代标签替换原名。例:用"那个佛罗里达男人"指代某个政治人物,用"某岛"指代某个地区。恢复依赖共享的文化或声誉知识。

一个帖子可以同时用三种机制

论文里有一个精彩的例子:一个TikTok创作者想表达"porn star",但搜索"pornstar"什么也搜不到。于是ta用了三个emoji组合:

  • 🍑(iconic resemblance - 视觉相似性,C1)
  • 🌽(attribute-based alias - 属性关联,C7)
  • ⭐(name-based pictorial mapping - 名称映射,C5)

三个机制叠加,人类秒懂,算法完全看不出来。

实验结果

在2000条人工标注的TikTok和Bluesky帖子上的实验:

  • 新分类法 vs 4个已有分类法 + 无分类法基线:新分类法在3个LLM上全面胜出
  • 准确率提升4.7%,F1提升5.4%(相对最强基线)
  • 提升最大的类别:C4(形式编码系统)+62.2%,C6(词法-形态编码)+24.3%,C7(指称别名编码)+20.8%——都是此前分类法覆盖差或完全不覆盖的类别
  • 消融实验:去掉任何一个类别都会降低性能,说明7类缺一不可

一个反直觉的发现:使用不完整的分类法比不用分类法还差。这说明给LLM一个部分框架,反而会限制它本来的识别能力——要么给完整的,要么不给。

为什么这很重要

这篇论文的深层贡献不是"又一个分类法",而是一个范式转换:

从"检测特定暗语"到"理解编码机制"

暗语词典每周都在过时——"seggs"被算法学会后,下周可能变成"segs"或"s3ggs"。但"语音替换"这个机制永远存在。只要LLM理解了机制,就能泛化到从未见过的新暗语。

这和AI安全里的"对抗性样本"研究异曲同工:你无法枚举所有攻击,但你可以理解攻击的机制空间。这篇论文为内容审核提供了一个更稳定的脚手架——不是追着暗语跑,而是守住机制的出口。

论文信息

  • 标题: Beyond Surface Forms: A Comprehensive, Mechanism-Oriented Taxonomy of Indirect Linguistic Encoding for LLM-Based Coded Language Detection
  • 作者: Hamid Reza Firoozfar, Mohammadsadegh Abolhasani, Reza Mousavi, Paul Jen-Hwa Hu
  • 机构: University of Utah, University of Virginia
  • arXiv: https://arxiv.org/abs/2606.27314
  • 代码: https://github.com/hmdfiroozfar/mechanism-oriented-ile-taxonomy
  • 数据: 2000条TikTok + Bluesky人工标注帖子(TikTok部分因数据协议不公开)

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录