作者:Conor Bronsdon
仓库:https://github.com/conorbronsdon/avoid-ai-writing
版本:v3.4.0 MIT
日期:2026-05-24
先来看一段文字。
Certainly! Acme Analytics, a vibrant startup nestled in the heart of Boulder's thriving tech ecosystem, has secured 💲40M in Series B funding — marking a watershed moment for the observability landscape. The platform serves as a unified hub, featuring real-time dashboards, boasting sub-second queries, and presenting a seamless integration layer. Moreover, experts believe Acme is poised to disrupt the market. In conclusion, the future looks bright!
这是 GitHub 上 avoid-ai-writing 仓库给出的标准 demo。短短一段,作者标出了十五处以上的 AI 味:chatbot 式开场白("Certainly!")、宣传腔("vibrant"、"nestled"、"thriving")、意义膨胀("watershed moment")、系动词规避("serves as"、"featuring"、"boasting")、空洞背书("experts believe")、填充词("Moreover")、以及套话结尾("the future looks bright")。
改写后只有一句话:
Acme Analytics raised a 💲40M Series B led by Sequoia. The Boulder-based startup makes an observability platform that runs queries in under a second and plugs into existing monitoring stacks without custom integration work.
两段文字的信息量其实没差多少。但第一段读起来像一份自动生成的通稿,第二段像人写的。
这就是 avoid-ai-writing 在做的事。不是换几个词那么简单,它要做的是把 AI 的统计平均拉回到具体的人类表达。
一、三层词汇梯度,不是黑名单
很多人看到这类工具的第一反应是:这不就是一个禁用词表吗?把 "leverage" 换成 "use",把 "delve into" 换成 "explore"。
作者 Conor Bronsdon 显然想过这个问题。他把词汇分成了三个层级,这个设计本身就在说:"我们不搞一刀切。"
Tier 1 — 见了就换。这些词在 AI 文本中的出现频率是人类的 5 到 20 倍。"tapestry"、"realm"、"paradigm"、"beacon"、"testament to"、"game-changer"、"watershed moment"、"only time will tell"——作者列了将近五十个。它们不是坏词,只是在 LLM 的输出分布里被过度采样了。
Tier 2 — 集群才报警。单独出现没问题,同一个段落里出现两个以上就要改写。"harness"、"navigate"、"foster"、"elevate"、"streamline"、"empower"——这些词在商务英语里本来就很常见,但 AI 喜欢把它们堆在一起。两个以上同时出现,就像听到一段旋律里所有和弦都按同一个套路走。
Tier 3 — 密度才触发。"significant"、"innovative"、"compelling"、"unprecedented"、"sophisticated"——这些词本身完全正常,只有当它们在全文中的密度超过某个阈值(大约 3%)时才被标记。AI 用这些词来填充空间,人类用它们的时候通常有具体所指。
这种分层设计有一个好处:它把"检测"变成了一个概率问题,而非二元判断。一个词是否该被标记,取决于它出现的上下文、频率、以及和哪些其他词一起出现。
二、六套场景配置,AI 味的容忍度是可调的
最有意思的设计是这个 skill 的 context profile 系统。同一套规则,在不同场景下的严格程度不一样。作者做了六套配置:
| 场景 | 严格程度 |
|---|---|
| blog(默认) | 全开 |
| technical-blog | 部分 Tier 2 词放宽 |
| investor-email | 宣传语言和意义膨胀额外严格 |
| 格式结构放宽,词汇严格 | |
| docs | 整体放松,清晰度优先 |
| casual | 只抓 P0(信誉杀手级) |
举个例子:"robust"、"comprehensive"、"seamless" 在技术博客里不算 AI 味,因为它们是真实的技术术语。但在投资邮件里,"a robust ecosystem poised for transformative growth" 就是典型的宣传腔,额外严格。
这个设计揭示了一个深层事实:AI 味不是绝对的概念,而是相对于场景的预期表达。LinkedIn 上适度使用 bullet list 和 emoji 是正常的,在一篇深度分析里就成了痕迹。
三、四十二种痕迹的形态学
词汇表只是这个 skill 的一小部分。作者整理了四十二种 AI 写作痕迹,覆盖了从词汇到结构到节奏的各个层面:
格式层面:破折号滥用(每千字超过一个就算多)、粗体过度、标题 emoji、bullet list 过载(把本该写成段落的 pros 硬拆成列表)。
句式层面:"It's not X, it's Y" 的虚假对立结构、空洞强调词("genuine"、"truly"、"quite frankly")、模棱两可的背书("worth reading"、"worth exploring")、叠加的谨慎用语("could potentially"、"may eventually")。
结构层面:段落长度均匀得像节拍器、开头永远先来一段宏大背景("In the rapidly evolving world of...")、三段式对称排比、数字列表膨胀("Here are 7 reasons why...")。
修辞层面:虚假让步("While X is impressive, Y remains a challenge"——两边都是空话)、修辞疑问句拖延("But what does this mean for developers?"——你知道答案就直接说)、括号式谨慎插入("(and, increasingly, Z)")。
元信息层面:Chatbot 礼貌语泄漏("I hope this helps!"、"Great question!")、AI 工具的 URL 追踪参数("utm_source=chatgpt.com")、内部引用标记泄漏("citeturn0search0"、"[attached_file:1]")。
节奏层面:作者特别强调了一点——结构上的规律性是头号检测信号。即使你把所有 Tier 1 的词都换了,只要句子长度均匀、段落大小一致、过渡词按固定套路排列,文字读起来仍然是 AI 的。Pangram(一个训练了 2800 万人类文档的分类器)把结构规律性排在词汇之前。
四、最被低估的一条规则:"不要过度打磨"
skill 的最后一条规则让我印象深刻:
Aggressively editing out every irregularity can push human writing toward AI statistical profiles. Natural disfluency, idiosyncratic word choices, and uneven pacing are what keep text out of the "AI-generated" classification.
这句话的意思是:如果你把一篇人写的文章拿这套规则死磕,把所有不规则的地方都修掉,它反而会越来越像 AI 写的。因为 AI 的输出在统计上就是过度平滑的——句子长度均匀、语法完美无瑕、过渡词按标准模板排列。
人类的写作有磕磕绊绊、有重复、有突然出现的短句、有故意不完整的表达。这些东西在常规编辑中会被当成"问题"修掉,但在这个 skill 的框架里,它们恰恰是"人味"的来源。
这个规则的存在说明作者不是在追求"完美写作",而是在追求"像人写的写作"。两者的标准不同。
五、诚实说说局限
作者在 skill 的一开头就放了这些数字:
- Stanford 的研究(Liang et al., 2023):商业 AI 检测器对非英语母语写作者的误报率超过 60%。
- BFI 的工作论文(Jabarian & Imas, 2025):开源检测器的整体误分类率超过 70%。
- arXiv:2506.07001(2025):对抗性改写可以把检测准确率降低约 88%。
然后他说:"This is a writing-quality tool, not a verdict."
这个态度很难得。他没有假装这套规则能"抓住所有 AI 写作",也没有用它来指控别人。他明确说这是信号而非证据,值得据此修改自己的文字,但不值得据此毁掉别人的信誉。
这种诚实让这个 skill 从"检测工具"升级为"写作伴侣"。
六、费曼视角:为什么 AI 味本质上是统计平均
用费曼的方式想这件事:LLM 的核心是一个概率分布。它在每个位置选择下一个词的时候,选的是训练数据里最可能的那个。当数百亿参数都往同一个方向收敛,输出的文本在统计上就会趋近于一个"平均人类"——不犯错、不突兀、不偏执,但也因此失去了具体的人的所有特征。
"leverage" 比 "use" 更常出现在商务文本的训练数据里,所以 LLM 更倾向用它。"It's not X, it's Y" 这个句式在训练数据里被大量成功文章使用过,所以 LLM 复制它。三段式排比在修辞学教材里被反复教授,所以 LLM 默认用它。
avoid-ai-writing 的 2000 行规则,本质上是在做一件事:把 LLM 的统计平均重新拉回具体语境。不是"use 比 leverage 更好",而是在这个具体句子、这个具体作者、这个具体场景下,"use" 是更准确的表达。
这也是为什么这个 skill 强调 context profile 和二度审计。第一轮改写后,AI 可能会引入新的平均化痕迹——换了词汇但保留了结构套路。所以要有第二轮,重新读一遍,看那些统计模式是否换了包装重新出现。
七、结语
Conor Bronsdon 两个月前发布了这个仓库,现在已经有 1400 个 star 和 142 个 fork。考虑到它只是一个 markdown 文件,没有任何代码、没有任何依赖、没有任何 API,这个传播速度说明了一件事:需求是真实的。
人们不是在找"更好的 AI 写作",而是在找"更像人写的写作"。
这个 skill 的真正价值不在那 109 个替换词条里,而在于它建立了一套系统化的思考框架:AI 味可以从哪些维度被识别、不同场景下的容忍度如何调整、以及最重要的一点——过度追求完美本身就是一种 AI 味。
如果你在写作,无论是用 AI 辅助还是完全手写,这个 skill 都值得跑一次 detect 模式。不是为了"证明"什么,而是为了看看自己笔下的文字,有多少是统计平均的残留,还有多少是真实的声音。
信号,不是证明。值得据此修改,不值得据此指控。
参考与延伸阅读
- Conor Bronsdon, avoid-ai-writing (v3.4.0, MIT License): https://github.com/conorbronsdon/avoid-ai-writing
- Liang et al., "GPT detectors are biased against non-native English writers" (Patterns, 2023)
- Jabarian & Imas, BFI Working Paper 2025-116
- arXiv:2506.07001, adversarial paraphrase against AI detection
#tag #小凯 #AI写作 #写作工具 #LLM痕迹 #写作质量 #开源工具
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。