论文写作AI化实战：从"挤牙膏"到"搭骨架填肉"，一套带检查点的学术流水线

一句话：让AI写论文最大的痛苦不是"写不出来"，而是"写出来不对"——基准回归给了，平行趋势忘了；引言写了，但没回答"为什么读者要关心"；降重降了三轮，发现第三版比第一版还像AI写的。这些痛苦的根源是同一个：AI知道"怎么写一句"，但不知道"一篇论文的完整骨架长什么样"。Skill就是那张骨架图。

---

01 核心矛盾：AI会造句，但不会搭骨架

1.1 "挤牙膏"困境

你让AI写DID分析的论文，它给了基准回归就停了。你说"平行趋势呢"，它补一个。"安慰剂检验呢"，再补一个。"异质性分析呢"，又补一个。

这不是AI笨，是AI没有"一篇完整实证论文应该包含什么"的全局认知。它像是一个会砌砖的工人，但没有建筑图纸——你指哪它砌哪，但不会主动搭房梁。

1.2 解决方案：Skill = 方法论操作手册

Skill的本质不是"让AI写代码"，而是"让AI知道完整流程"。一个DID论文的Skill会告诉AI：

引言（Keith Head五要素）
  → 文献综述（定位缺口）
  → 数据与变量（描述统计+Table 1）
  → 识别策略（为什么DID合适+平行趋势）
  → 基准结果（主系数+标准误+显著性）
  → 稳健性检验（4-6种：换样本/换窗宽/安慰剂/...）
  → 异质性分析（ subgroup + 机制检验）
  → 结论与政策含义

有了这张骨架图，AI才知道"该填什么肉"、"什么时候该停"。

---

02 写作阶段：四套件覆盖全学科

2.1 academic-research-skills（1,790 stars）

五阶段管线：research → write → review → revise → finalize。

阶段	核心任务	AI的角色
research	选题、文献、数据	检索+摘要+缺口识别
write	初稿生成	按骨架填空
review	内部审查	幻觉检测（检查假引用、虚构数据）
revise	修改迭代	风格校准（调整语气、密度、节奏）
finalize	排版输出	LaTeX/Word格式化

风格校准是亮点：同一个结果，投AER和投中文期刊，叙述密度完全不同。AER偏好紧凑、技术性强；中文期刊需要更多政策背景和现实意义。Skill里预置了不同期刊的风格模板，AI知道"给谁看，就怎么写"。

幻觉检测更关键：AI编造引用是学术写作的致命伤。这个Skill内置了引用验证环节——每生成一条引用，AI自动检索arXiv/CrossRef/Google Scholar确认文献真实存在。

2.2 stats-paper-writing-agent-skills（统计论文专用）

面向统计学、计量经济学论文，附两个实用脚本：

check-tex：编译前自动检查LaTeX语法、引用完整性、图表引用匹配
check-bib：BibTeX格式校验、DOI补全、重复条目检测

2.3 claude-scientific-skills（8,799 stars，140+技能）

规模最大、覆盖面最广的科学写作套件：

28+科学数据库接口（OpenAlex、PubMed、Semantic Scholar）
scientific-writing：按IMRaD结构（Introduction-Methods-Results-Discussion）生成
literature-review：自动检索+摘要+批判性综合
statistical-analysis：结果解读+可视化描述

2.4 academic-paper-skills（人文社科专用）

不同于经济学论文的"表格+系数"模式，人文社科论文更需要"论证链条"和"理论对话"。这个套件用 Strategist + Composer 双代理：

Strategist：规划论证框架（核心论点→分论点→证据→反驳→回应）
Composer：按框架填充具体内容

---

03 引言写作：Keith Head公式 + 四代理流水线

3.1 Keith Head五要素

Keith Head（英属哥伦比亚大学教授）提出的引言公式，被实证经济学界广泛采用：

[Hook] 抓人：一个反直觉的事实、一个政策冲击、一个市场异象
    ↓
[Question] 问题：这个现象引出了什么核心问题？
    ↓
[Antecedents] 前人做了什么：已有文献如何回答？缺口在哪？
    ↓
[Value-added] 你的贡献：这篇论文回答了前人没回答的什么？
    ↓
[Roadmap] 路线图：后文怎么组织？每节做什么？

这五要素看似简单，但执行中常见的问题：

Hook太泛（"全球化是个重要议题"——废话）
Question太大（"如何促进经济增长？"——博士论文都答不完）
Antecedents变成文献堆砌（列了20篇但没指出缺口）
Value-added太谦虚（"我们补充了一点证据"——审稿人：那为什么要发表？）
Roadmap写成目录复述（"第二节是文献综述"——不要重复目录）

3.2 introduction-writer四代理架构

代理	职责	独立运行？
Strategist（策划者）	按五要素规划引言结构	是
Drafter（起草者）	生成初稿	是
Reviewer（评审者）	独立审查：Hook够不够抓人？Value-added够不够清楚？	必须独立
Reviser（修改者）	根据评审意见修改	是

核心设计：Reviewer必须独立于Drafter运行。同一个Agent既写又审，会倾向于认为自己写的都对——这和人类作者的问题一模一样。角色分离才能形成真正的质量控制循环。

---

04 修改润色：三代理 + 六步防退化协议

4.1 copy-edit-master三代理架构

代理	职责	编码规则
Structure Editor（结构编辑）	段落顺序、逻辑链条、论证跳跃	Strunk & White《风格的要素》+ McCloskey经济写作规范
Line Editor（行文编辑）	句子级打磨：冗余、被动语态、连接词、节奏	同上了层规则
Quality Reviewer（质量审核）	最终把关：风格一致性、术语准确性、格式合规	逐条检查清单

Git检查点：每阶段完成后自动commit，可回退。如果第三轮修改后发现"第二版更好"，直接checkout到第二阶段，不用人工翻历史。

4.2 ai-revision-guard六步协议

修改中最常见的问题：AI越改越差——第三版比第一版更像AI写的。revision-guard的六步协议专门解决这个问题：

步骤	动作	防止什么问题
锚定	保存初稿为基准	修改漂移
分类	标注每处修改的类型（语法/风格/内容/格式）	盲目修改
执行	按类型分批修改，不是一次性全改	过度修改
报告	生成修改摘要，列出"改了什么、为什么改"	修改不可追溯
限制	每节修改轮次≤2轮	无限迭代导致退化
检测	7项同质化检测清单	3倍词汇替换、立场中性化、个人表达→通用模板

八个学科预设：经济学、政治学、社会学、心理学、教育学、公共健康、管理学、金融学——每个学科有不同的写作惯例（经济学偏好主动语态、社会学接受被动语态、医学论文需要结构化摘要），AI按学科调整修改策略。

4.3 三种退化模式

revision-guard检测的三种典型退化：

退化模式	表现	检测方法
3倍词汇替换	"重要的"→"关键的"→"核心的"→"根本性的"，越来越浮夸	词汇复杂度指标
立场中性化	"我们发现"→"研究表明"→"有证据显示"，作者隐身	主语统计
个人表达→通用模板	独特的论证节奏被磨平成"首先…其次…最后…"	句长方差 + 连接词密度

---

05 去AI味：五件套组合拳

2026年学术写作最关键的新痛点：AIGC检测率超标一票否决。知网、万方、维普、Turnitin的检测日趋严格，论文里AI痕迹太重会直接被拒。

5.1 中文专用：chinese-de-aigc（CoPaper.AI原创）

目前GitHub上唯一面向中文学术的降AIGC Skill，针对知网AMLC/万方/维普/Turnitin中文版的检测机制设计。

维度	检测内容	改写策略
四字套话	"综上所述"、"研究表明"、"具有重要意义"	拆分、替换、弱化
虚词堆叠	"的"字密度过高	精简句式
显性连接词	"首先…其次…最后…"	改用隐衔接
绝对化断言	"必然"、"绝对"、"完全"	加限定词
总分总对称	每段都是"观点→展开→总结"	打破对称
句长方差	每句长度雷同	长短错落

五步闭环：定位→诊断→差异化改写→五维自评→二次复查。

五维评分量表（满分50）：

具体性：抽象概念有没有具体化？
节奏性：句长、段落长度有没有变化？
谨慎性：断言有没有适当限定？
隐衔接：连接是不是通过内容而非连接词实现的？
研究者语气：有没有真实的人类声音？

5.2 英文专用：humanizer_academic（23种模式）

面向英文学术论文，检测5大类23种AI痕迹：

内容类6种：空洞开场、过度概括、没有数据支撑的断言
语言类6种：被动语态泛滥、名词化堆砌、连接词滥用
风格类3种：缺乏学科特色、语气过于中立、没有作者立场
填充类3种：无意义过渡段、重复性总结、过度解释
用词类5种：通用学术词汇、缺乏领域术语、不自然的同义词替换

5.3 通用评分：skill-deslop（五维评分卡）

智能区分"合法学科惯例"和"AI痕迹"。比如方法论章节的被动语态是学科惯例，不是AI痕迹；但讨论章节全是被动语态就是问题。

五维评分：直接性 / 节奏 / 信任 / 真实性 / 密度。

5.4 通用检测：stop-slop（三层检测）

层级	检测对象	例子
禁用短语	清喉开场、强调拐杖、商业行话	"值得注意的是"、"必须强调"
结构套路	二元对比、戏剧性碎片化、虚假能动性	"不是A而是B"、"在…的背景下"
句级规则	禁止em dash开头、禁止Wh-问句开头	"—然而，我们发现…"

5.5 可审计流程：avoid-ai-writing

四段式输出：识别问题（含引用原文）→ 重写文本 → 修改摘要 → 第二遍审计。全程可追溯，适合需要合规审计的场景。

5.6 推荐组合

场景	主工具	辅助工具
中文论文（知网/万方/维普）	chinese-de-aigc	+ revision-guard
英文论文（AER/QJE/JPE）	humanizer_academic	+ revision-guard
双语论文	chinese-de-aigc + humanizer_academic	+ revision-guard
需要审计报告	avoid-ai-writing	+ stop-slop

---

06 引用与排版：Zotero MCP + Emory工作流

6.1 Zotero MCP服务器

Zotero文献库直连AI，实现：

论文评审：读PDF→提取核心论点→生成摘要
引用分析：某篇论文被谁引用了？引用脉络是什么？
PDF标注：自动高亮关键段落，生成阅读笔记

这意味着AI可以直接访问你的文献库，而不是每次都从零搜索。

6.2 claude-code-my-workflow（Emory大学Econ 730课程）

源自Emory大学经济学研究生课程，已被 15个研究组 采用。这套工作流的核心是质量三级门槛：

门槛	分数	含义
通过	≥80	可以提交给导师/合作者
良好	≥90	可以投稿
优秀	≥95	可以投顶刊

14个Agent / 28个Skills / 6个Hooks构成完整流水线：

三遍XeLaTeX编译（确保交叉引用、目录、页码正确）
多Agent对抗评审（模拟审稿人质疑，提前修复漏洞）
质量三级门槛自动评分

6.3 实用建议：先搭骨架再填肉

整个写作-修改-排版流程的核心策略：

Strategist（策划者）
  → 规划论文骨架（五要素引言、识别策略、结果结构）
  
Composer / Drafter（起草者）
  → 按骨架填充内容（基准回归、稳健性、异质性）
  
修改Skills（copy-edit-master + revision-guard）
  → 打磨细节（结构、行文、去AI味、格式）
  
每步都有检查点（Git commit）
  → 可回退、可比较、可审计

关键洞察：很多研究者让AI直接"写一篇论文"，结果得到的是一堆不连贯的段落。正确的方式是"先搭骨架，再填肉"——让AI知道"这篇论文要论证什么、用什么证据、按什么顺序"，然后再生成具体内容。

---

07 追问：这套流水线的真实边界

7.1 "幻觉检测"能检测所有假引用吗？

academic-research-skills的幻觉检测机制是"生成引用→检索确认"。但这个机制有盲区：

AI可能把真实存在的论文的作者、年份、期刊编错（"张三是2024年发表在JPE"→实际是李四2023年发表在QJE）
AI可能把真实存在的概念张冠李戴（"DID由Angrist提出"→实际不是）
某些小众领域文献没有被OpenAlex/CrossRef索引

引用验证是必要的，但不是充分的。最终的把关者还是人。

7.2 "去AI味"会不会把论文改得不像学术写作？

这是一个真实的张力。学术写作本身就有固定惯例：

"本文发现"比"我们发现"更常见（中文期刊）
被动语态在方法论章节是规范（"数据被清洗"而非"我们清洗了数据"）
某些连接词（"此外"、"然而"）是学术写作的必需品

去AI味Skill的精髓是 "区分惯例和痕迹" ——保留必要的学术规范，去除过度模式化的AI特征。但这需要领域知识，通用规则可能误伤。

7.3 四代理架构的延迟成本

introduction-writer的四代理（Strategist→Drafter→Reviewer→Reviser）每个都独立运行，意味着：

4倍API调用
4倍token消耗
4倍等待时间

对于一篇引言（通常500-800词），这个开销可以接受。但对于整篇论文（8,000-15,000词），四代理架构的成本会显著增加。质量与成本的权衡 是真实存在的问题。

7.4 "15个研究组采用"的Emory工作流，适用性有多广？

Emory Econ 730是经济学研究生课程，claude-code-my-workflow的设计也是面向经济学实证论文。对于：

理论经济学论文（没有回归表格，全是证明）→ 不适用
人文社科论文（论证链条而非系数表格）→ 需要大幅调整
自然科学论文（IMRaD结构、实验方法）→ 部分适用

任何工作流都有学科边界，不要盲搬。

---

08 总结：写作不是造句，是搭骨架

论文写作AI化的核心框架

┌─────────────────────────────────────────────────────────┐
│  阶段        工具                    核心原则              │
├─────────────────────────────────────────────────────────┤
│  搭骨架      Strategist / Keith Head公式   先规划再填充   │
│  填肉        Composer / Drafter              按骨架执行     │
│  审结构      Structure Editor                逻辑链条      │
│  审行文      Line Editor                     句子打磨      │
│  去AI味      chinese-de-aigc / humanizer     区分惯例与痕迹 │
│  防退化      revision-guard                  锚定+限制+检测 │
│  排引用      Zotero MCP                      库直连       │
│  出终稿      claude-code-my-workflow         质量三级门槛  │
└─────────────────────────────────────────────────────────┘

一句话收尾：论文写作的本质不是"写出很多字"，而是"用逻辑说服审稿人"。AI可以帮你造句、调格式、跑回归，但骨架的设计——选题有没有意义、识别策略可不可信、贡献够不够清楚——仍然是人类的领地。Skill的价值不是替代你的判断，而是把你的判断结构化，让AI知道"按这个方向执行"。先搭骨架，再填肉，每一步都有检查点可回退——这才是AI辅助学术写作的正确打开方式。

---

参考

主仓库：https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research
CoPaper.AI：https://copaper.ai
academic-research-skills：https://github.com/Imbad0202/academic-research-skills
claude-scientific-skills：https://github.com/K-Dense-AI/claude-scientific-skills
academic-paper-skills：https://github.com/lishix520/academic-paper-skills
chinese-de-aigc：https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research/tree/main/skills/48
humanizer_academic：https://github.com/matsuikentaro1/humanizer_academic
skill-deslop：https://github.com/stephenturner/skill-deslop
stop-slop：https://github.com/hardikpandya/stop-slop
avoid-ai-writing：https://github.com/conorbronsdon/avoid-ai-writing
Emory Econ 730工作流：https://github.com/pedrohcgs/claude-code-my-workflow
Keith Head引言公式：https://keithhead.wordpress.com/research/
Zotero MCP：https://github.com/54yyyu/zotero-mcp

#tag #论文写作 #AI学术写作 #去AI味 #Skill #学术排版 #引言写作 #修改润色 #小凯

表达	在某些场景是"惯例"	在另一些场景是"AI痕迹"
"综上所述"	中文论文结论段的标准过渡	每段结尾都用就成了套话
被动语态	方法论章节的规范	讨论章节全被动就很奇怪
"然而"	转折的标准表达	每段开头都用就成了模板
"值得注意的是"	强调关键发现	滥用就成了清喉开场