2000行规则对抗AI味：一个去味系统的底层拆解

> 作者：Conor Bronsdon > 仓库：https://github.com/conorbronsdon/avoid-ai-writing > 版本：v3.4.0 MIT > 日期：2026-05-24

---

先来看一段文字。

> Certainly! Acme Analytics, a vibrant startup nestled in the heart of Boulder's thriving tech ecosystem, has secured 💲40M in Series B funding — marking a watershed moment for the observability landscape. The platform serves as a unified hub, featuring real-time dashboards, boasting sub-second queries, and presenting a seamless integration layer. Moreover, experts believe Acme is poised to disrupt the market. In conclusion, the future looks bright!

这是 GitHub 上 avoid-ai-writing 仓库给出的标准 demo。短短一段，作者标出了十五处以上的 AI 味：chatbot 式开场白（"Certainly!"）、宣传腔（"vibrant"、"nestled"、"thriving"）、意义膨胀（"watershed moment"）、系动词规避（"serves as"、"featuring"、"boasting"）、空洞背书（"experts believe"）、填充词（"Moreover"）、以及套话结尾（"the future looks bright"）。

改写后只有一句话：

> Acme Analytics raised a 💲40M Series B led by Sequoia. The Boulder-based startup makes an observability platform that runs queries in under a second and plugs into existing monitoring stacks without custom integration work.

两段文字的信息量其实没差多少。但第一段读起来像一份自动生成的通稿，第二段像人写的。

这就是 avoid-ai-writing 在做的事。不是换几个词那么简单，它要做的是把 AI 的统计平均拉回到具体的人类表达。

---

一、三层词汇梯度，不是黑名单

很多人看到这类工具的第一反应是：这不就是一个禁用词表吗？把 "leverage" 换成 "use"，把 "delve into" 换成 "explore"。

作者 Conor Bronsdon 显然想过这个问题。他把词汇分成了三个层级，这个设计本身就在说："我们不搞一刀切。"

Tier 1 — 见了就换。这些词在 AI 文本中的出现频率是人类的 5 到 20 倍。"tapestry"、"realm"、"paradigm"、"beacon"、"testament to"、"game-changer"、"watershed moment"、"only time will tell"——作者列了将近五十个。它们不是坏词，只是在 LLM 的输出分布里被过度采样了。

Tier 2 — 集群才报警。单独出现没问题，同一个段落里出现两个以上就要改写。"harness"、"navigate"、"foster"、"elevate"、"streamline"、"empower"——这些词在商务英语里本来就很常见，但 AI 喜欢把它们堆在一起。两个以上同时出现，就像听到一段旋律里所有和弦都按同一个套路走。

Tier 3 — 密度才触发。"significant"、"innovative"、"compelling"、"unprecedented"、"sophisticated"——这些词本身完全正常，只有当它们在全文中的密度超过某个阈值（大约 3%）时才被标记。AI 用这些词来填充空间，人类用它们的时候通常有具体所指。

这种分层设计有一个好处：它把"检测"变成了一个概率问题，而非二元判断。一个词是否该被标记，取决于它出现的上下文、频率、以及和哪些其他词一起出现。

---

二、六套场景配置，AI 味的容忍度是可调的

最有意思的设计是这个 skill 的 context profile 系统。同一套规则，在不同场景下的严格程度不一样。作者做了六套配置：

场景	严格程度
blog（默认）	全开
technical-blog	部分 Tier 2 词放宽
investor-email	宣传语言和意义膨胀额外严格
linkedin	格式结构放宽，词汇严格
docs	整体放松，清晰度优先
casual	只抓 P0（信誉杀手级）

举个例子："robust"、"comprehensive"、"seamless" 在技术博客里不算 AI 味，因为它们是真实的技术术语。但在投资邮件里，"a robust ecosystem poised for transformative growth" 就是典型的宣传腔，额外严格。

这个设计揭示了一个深层事实：AI 味不是绝对的概念，而是相对于场景的预期表达。LinkedIn 上适度使用 bullet list 和 emoji 是正常的，在一篇深度分析里就成了痕迹。

---

三、四十二种痕迹的形态学

词汇表只是这个 skill 的一小部分。作者整理了四十二种 AI 写作痕迹，覆盖了从词汇到结构到节奏的各个层面：

格式层面：破折号滥用（每千字超过一个就算多）、粗体过度、标题 emoji、bullet list 过载（把本该写成段落的 pros 硬拆成列表）。

句式层面："It's not X, it's Y" 的虚假对立结构、空洞强调词（"genuine"、"truly"、"quite frankly"）、模棱两可的背书（"worth reading"、"worth exploring"）、叠加的谨慎用语（"could potentially"、"may eventually"）。

结构层面：段落长度均匀得像节拍器、开头永远先来一段宏大背景（"In the rapidly evolving world of..."）、三段式对称排比、数字列表膨胀（"Here are 7 reasons why..."）。

修辞层面：虚假让步（"While X is impressive, Y remains a challenge"——两边都是空话）、修辞疑问句拖延（"But what does this mean for developers?"——你知道答案就直接说）、括号式谨慎插入（"(and, increasingly, Z)"）。

元信息层面：Chatbot 礼貌语泄漏（"I hope this helps!"、"Great question!"）、AI 工具的 URL 追踪参数（"utm_source=chatgpt.com"）、内部引用标记泄漏（"citeturn0search0"、"[attached_file:1]"）。

节奏层面：作者特别强调了一点——结构上的规律性是头号检测信号。即使你把所有 Tier 1 的词都换了，只要句子长度均匀、段落大小一致、过渡词按固定套路排列，文字读起来仍然是 AI 的。Pangram（一个训练了 2800 万人类文档的分类器）把结构规律性排在词汇之前。

---

四、最被低估的一条规则："不要过度打磨"

skill 的最后一条规则让我印象深刻：

> Aggressively editing out every irregularity can push human writing *toward* AI statistical profiles. Natural disfluency, idiosyncratic word choices, and uneven pacing are what keep text out of the "AI-generated" classification.

这句话的意思是：如果你把一篇人写的文章拿这套规则死磕，把所有不规则的地方都修掉，它反而会越来越像 AI 写的。因为 AI 的输出在统计上就是过度平滑的——句子长度均匀、语法完美无瑕、过渡词按标准模板排列。

人类的写作有磕磕绊绊、有重复、有突然出现的短句、有故意不完整的表达。这些东西在常规编辑中会被当成"问题"修掉，但在这个 skill 的框架里，它们恰恰是"人味"的来源。

这个规则的存在说明作者不是在追求"完美写作"，而是在追求"像人写的写作"。两者的标准不同。

---

五、诚实说说局限

作者在 skill 的一开头就放了这些数字：

Stanford 的研究（Liang et al., 2023）：商业 AI 检测器对非英语母语写作者的误报率超过 60%。
BFI 的工作论文（Jabarian & Imas, 2025）：开源检测器的整体误分类率超过 70%。
arXiv:2506.07001（2025）：对抗性改写可以把检测准确率降低约 88%。

然后他说："This is a writing-quality tool, not a verdict."

这个态度很难得。他没有假装这套规则能"抓住所有 AI 写作"，也没有用它来指控别人。他明确说这是信号而非证据，值得据此修改自己的文字，但不值得据此毁掉别人的信誉。

这种诚实让这个 skill 从"检测工具"升级为"写作伴侣"。

---

六、费曼视角：为什么 AI 味本质上是统计平均

用费曼的方式想这件事：LLM 的核心是一个概率分布。它在每个位置选择下一个词的时候，选的是训练数据里最可能的那个。当数百亿参数都往同一个方向收敛，输出的文本在统计上就会趋近于一个"平均人类"——不犯错、不突兀、不偏执，但也因此失去了具体的人的所有特征。

"leverage" 比 "use" 更常出现在商务文本的训练数据里，所以 LLM 更倾向用它。"It's not X, it's Y" 这个句式在训练数据里被大量成功文章使用过，所以 LLM 复制它。三段式排比在修辞学教材里被反复教授，所以 LLM 默认用它。

avoid-ai-writing 的 2000 行规则，本质上是在做一件事：把 LLM 的统计平均重新拉回具体语境。不是"use 比 leverage 更好"，而是在这个具体句子、这个具体作者、这个具体场景下，"use" 是更准确的表达。

这也是为什么这个 skill 强调 context profile 和二度审计。第一轮改写后，AI 可能会引入新的平均化痕迹——换了词汇但保留了结构套路。所以要有第二轮，重新读一遍，看那些统计模式是否换了包装重新出现。

---

七、结语

Conor Bronsdon 两个月前发布了这个仓库，现在已经有 1400 个 star 和 142 个 fork。考虑到它只是一个 markdown 文件，没有任何代码、没有任何依赖、没有任何 API，这个传播速度说明了一件事：需求是真实的。

人们不是在找"更好的 AI 写作"，而是在找"更像人写的写作"。

这个 skill 的真正价值不在那 109 个替换词条里，而在于它建立了一套系统化的思考框架：AI 味可以从哪些维度被识别、不同场景下的容忍度如何调整、以及最重要的一点——过度追求完美本身就是一种 AI 味。

如果你在写作，无论是用 AI 辅助还是完全手写，这个 skill 都值得跑一次 detect 模式。不是为了"证明"什么，而是为了看看自己笔下的文字，有多少是统计平均的残留，还有多少是真实的声音。

> 信号，不是证明。值得据此修改，不值得据此指控。

---

参考与延伸阅读

Conor Bronsdon, avoid-ai-writing (v3.4.0, MIT License): https://github.com/conorbronsdon/avoid-ai-writing
Liang et al., "GPT detectors are biased against non-native English writers" (Patterns, 2023)
Jabarian & Imas, BFI Working Paper 2025-116
arXiv:2506.07001, adversarial paraphrase against AI detection

#tag #小凯 #AI写作 #写作工具 #LLM痕迹 #写作质量 #开源工具