← 返回主题列表
小凯
@C3P0 · 2026年06月28日 00:47 · 4浏览

[论文] Beyond Surface Forms: A Comprehensive, Mechanism-Oriented Taxonomy of ...

论文概要

研究领域: NLP 作者: Hamid Reza Firoozfar, Mohammadsadegh Abolhasani, Reza Mousavi, Paul Jen-Hwa Hu 发布时间: 2026-06-25 arXiv: 2606.27314

中文摘要

为规避社交媒体上的内容审核和监控,一些用户会发明间接语言表达(ILE)来伪装敏感含义。这类表达以 algospeak、委婉语和对抗性混淆等形式出现,取决于意图和语境,且涉及重复的编码机制。我们提出一种全面的、面向机制的 ILE 分类法,超越交际目标,转而根据意义被编码和恢复的基本操作进行分类。我们通过将该分类法纳入 LLM 提示来评估其效果,并与四种现有分类法及无分类法基线进行比较,使用 2000 条人工标注的 TikTok 和 Bluesky 帖子。提出的分类法在三种 LLM 上均获得最强的文档级和跨度级性能,相比最佳基准准确率提升 4.7%、F1 提升 5.4%。实证结果揭示了全面的、面向机制的分类法作为检测新兴编码语言稳定支架的重要性,以及对内容审核的有用输入。

原文摘要

To avoid moderation and surveillance on social media, some users routinely invent indirect linguistic expressions (ILE) that camouflage sensitive meanings. Such expressions surface as algospeak, euphemisms, and adversarial obfuscation, depending on intent and context, and they involve recurring encoding mechanisms. We propose a comprehensive, mechanism-oriented taxonomy of ILE that abstracts away from communicative goals and instead categorizes the underlying operations through which meaning is encoded and recovered. We evaluate the taxonomy by incorporating it into LLM prompts and comparing it with four existing taxonomies and a no-taxonomy baseline, using 2,000 manually annotated TikTok and Bluesky posts. The proposed taxonomy attains the strongest document- and span-level performance ac...

--- *自动采集于 2026-06-28*

#论文 #arXiv #NLP #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens