一句话:让AI写论文最大的痛苦不是"写不出来",而是"写出来不对"——基准回归给了,平行趋势忘了;引言写了,但没回答"为什么读者要关心";降重降了三轮,发现第三版比第一版还像AI写的。这些痛苦的根源是同一个:AI知道"怎么写一句",但不知道"一篇论文的完整骨架长什么样"。Skill就是那张骨架图。
01 核心矛盾:AI会造句,但不会搭骨架
1.1 "挤牙膏"困境
你让AI写DID分析的论文,它给了基准回归就停了。你说"平行趋势呢",它补一个。"安慰剂检验呢",再补一个。"异质性分析呢",又补一个。
这不是AI笨,是AI没有"一篇完整实证论文应该包含什么"的全局认知。它像是一个会砌砖的工人,但没有建筑图纸——你指哪它砌哪,但不会主动搭房梁。
1.2 解决方案:Skill = 方法论操作手册
Skill的本质不是"让AI写代码",而是"让AI知道完整流程"。一个DID论文的Skill会告诉AI:
引言(Keith Head五要素)
→ 文献综述(定位缺口)
→ 数据与变量(描述统计+Table 1)
→ 识别策略(为什么DID合适+平行趋势)
→ 基准结果(主系数+标准误+显著性)
→ 稳健性检验(4-6种:换样本/换窗宽/安慰剂/...)
→ 异质性分析( subgroup + 机制检验)
→ 结论与政策含义
有了这张骨架图,AI才知道"该填什么肉"、"什么时候该停"。
02 写作阶段:四套件覆盖全学科
2.1 academic-research-skills(1,790 stars)
五阶段管线:research → write → review → revise → finalize。
| 阶段 | 核心任务 | AI的角色 |
|---|---|---|
| research | 选题、文献、数据 | 检索+摘要+缺口识别 |
| write | 初稿生成 | 按骨架填空 |
| review | 内部审查 | 幻觉检测(检查假引用、虚构数据) |
| revise | 修改迭代 | 风格校准(调整语气、密度、节奏) |
| finalize | 排版输出 | LaTeX/Word格式化 |
风格校准是亮点:同一个结果,投AER和投中文期刊,叙述密度完全不同。AER偏好紧凑、技术性强;中文期刊需要更多政策背景和现实意义。Skill里预置了不同期刊的风格模板,AI知道"给谁看,就怎么写"。
幻觉检测更关键:AI编造引用是学术写作的致命伤。这个Skill内置了引用验证环节——每生成一条引用,AI自动检索arXiv/CrossRef/Google Scholar确认文献真实存在。
2.2 stats-paper-writing-agent-skills(统计论文专用)
面向统计学、计量经济学论文,附两个实用脚本:
- check-tex:编译前自动检查LaTeX语法、引用完整性、图表引用匹配
- check-bib:BibTeX格式校验、DOI补全、重复条目检测
2.3 claude-scientific-skills(8,799 stars,140+技能)
规模最大、覆盖面最广的科学写作套件:
- 28+科学数据库接口(OpenAlex、PubMed、Semantic Scholar)
- scientific-writing:按IMRaD结构(Introduction-Methods-Results-Discussion)生成
- literature-review:自动检索+摘要+批判性综合
- statistical-analysis:结果解读+可视化描述
2.4 academic-paper-skills(人文社科专用)
不同于经济学论文的"表格+系数"模式,人文社科论文更需要"论证链条"和"理论对话"。这个套件用Strategist + Composer双代理:
- Strategist:规划论证框架(核心论点→分论点→证据→反驳→回应)
- Composer:按框架填充具体内容
03 引言写作:Keith Head公式 + 四代理流水线
3.1 Keith Head五要素
Keith Head(英属哥伦比亚大学教授)提出的引言公式,被实证经济学界广泛采用:
[Hook] 抓人:一个反直觉的事实、一个政策冲击、一个市场异象
↓
[Question] 问题:这个现象引出了什么核心问题?
↓
[Antecedents] 前人做了什么:已有文献如何回答?缺口在哪?
↓
[Value-added] 你的贡献:这篇论文回答了前人没回答的什么?
↓
[Roadmap] 路线图:后文怎么组织?每节做什么?
这五要素看似简单,但执行中常见的问题:
- Hook太泛("全球化是个重要议题"——废话)
- Question太大("如何促进经济增长?"——博士论文都答不完)
- Antecedents变成文献堆砌(列了20篇但没指出缺口)
- Value-added太谦虚("我们补充了一点证据"——审稿人:那为什么要发表?)
- Roadmap写成目录复述("第二节是文献综述"——不要重复目录)
3.2 introduction-writer四代理架构
| 代理 | 职责 | 独立运行? |
|---|---|---|
| Strategist(策划者) | 按五要素规划引言结构 | 是 |
| Drafter(起草者) | 生成初稿 | 是 |
| Reviewer(评审者) | 独立审查:Hook够不够抓人?Value-added够不够清楚? | 必须独立 |
| Reviser(修改者) | 根据评审意见修改 | 是 |
核心设计:Reviewer必须独立于Drafter运行。同一个Agent既写又审,会倾向于认为自己写的都对——这和人类作者的问题一模一样。角色分离才能形成真正的质量控制循环。
04 修改润色:三代理 + 六步防退化协议
4.1 copy-edit-master三代理架构
| 代理 | 职责 | 编码规则 |
|---|---|---|
| Structure Editor(结构编辑) | 段落顺序、逻辑链条、论证跳跃 | Strunk & White《风格的要素》+ McCloskey经济写作规范 |
| Line Editor(行文编辑) | 句子级打磨:冗余、被动语态、连接词、节奏 | 同上了层规则 |
| Quality Reviewer(质量审核) | 最终把关:风格一致性、术语准确性、格式合规 | 逐条检查清单 |
Git检查点:每阶段完成后自动commit,可回退。如果第三轮修改后发现"第二版更好",直接checkout到第二阶段,不用人工翻历史。
4.2 ai-revision-guard六步协议
修改中最常见的问题:AI越改越差——第三版比第一版更像AI写的。revision-guard的六步协议专门解决这个问题:
| 步骤 | 动作 | 防止什么问题 |
|---|---|---|
| 锚定 | 保存初稿为基准 | 修改漂移 |
| 分类 | 标注每处修改的类型(语法/风格/内容/格式) | 盲目修改 |
| 执行 | 按类型分批修改,不是一次性全改 | 过度修改 |
| 报告 | 生成修改摘要,列出"改了什么、为什么改" | 修改不可追溯 |
| 限制 | 每节修改轮次≤2轮 | 无限迭代导致退化 |
| 检测 | 7项同质化检测清单 | 3倍词汇替换、立场中性化、个人表达→通用模板 |
八个学科预设:经济学、政治学、社会学、心理学、教育学、公共健康、管理学、金融学——每个学科有不同的写作惯例(经济学偏好主动语态、社会学接受被动语态、医学论文需要结构化摘要),AI按学科调整修改策略。
4.3 三种退化模式
revision-guard检测的三种典型退化:
| 退化模式 | 表现 | 检测方法 |
|---|---|---|
| 3倍词汇替换 | "重要的"→"关键的"→"核心的"→"根本性的",越来越浮夸 | 词汇复杂度指标 |
| 立场中性化 | "我们发现"→"研究表明"→"有证据显示",作者隐身 | 主语统计 |
| 个人表达→通用模板 | 独特的论证节奏被磨平成"首先…其次…最后…" | 句长方差 + 连接词密度 |
05 去AI味:五件套组合拳
2026年学术写作最关键的新痛点:AIGC检测率超标一票否决。知网、万方、维普、Turnitin的检测日趋严格,论文里AI痕迹太重会直接被拒。
5.1 中文专用:chinese-de-aigc(CoPaper.AI原创)
目前GitHub上唯一面向中文学术的降AIGC Skill,针对知网AMLC/万方/维普/Turnitin中文版的检测机制设计。
| 维度 | 检测内容 | 改写策略 |
|---|---|---|
| 四字套话 | "综上所述"、"研究表明"、"具有重要意义" | 拆分、替换、弱化 |
| 虚词堆叠 | "的"字密度过高 | 精简句式 |
| 显性连接词 | "首先…其次…最后…" | 改用隐衔接 |
| 绝对化断言 | "必然"、"绝对"、"完全" | 加限定词 |
| 总分总对称 | 每段都是"观点→展开→总结" | 打破对称 |
| 句长方差 | 每句长度雷同 | 长短错落 |
五步闭环:定位→诊断→差异化改写→五维自评→二次复查。
五维评分量表(满分50):
- 具体性:抽象概念有没有具体化?
- 节奏性:句长、段落长度有没有变化?
- 谨慎性:断言有没有适当限定?
- 隐衔接:连接是不是通过内容而非连接词实现的?
- 研究者语气:有没有真实的人类声音?
5.2 英文专用:humanizer_academic(23种模式)
面向英文学术论文,检测5大类23种AI痕迹:
- 内容类6种:空洞开场、过度概括、没有数据支撑的断言
- 语言类6种:被动语态泛滥、名词化堆砌、连接词滥用
- 风格类3种:缺乏学科特色、语气过于中立、没有作者立场
- 填充类3种:无意义过渡段、重复性总结、过度解释
- 用词类5种:通用学术词汇、缺乏领域术语、不自然的同义词替换
5.3 通用评分:skill-deslop(五维评分卡)
智能区分"合法学科惯例"和"AI痕迹"。比如方法论章节的被动语态是学科惯例,不是AI痕迹;但讨论章节全是被动语态就是问题。
五维评分:直接性 / 节奏 / 信任 / 真实性 / 密度。
5.4 通用检测:stop-slop(三层检测)
| 层级 | 检测对象 | 例子 |
|---|---|---|
| 禁用短语 | 清喉开场、强调拐杖、商业行话 | "值得注意的是"、"必须强调" |
| 结构套路 | 二元对比、戏剧性碎片化、虚假能动性 | "不是A而是B"、"在…的背景下" |
| 句级规则 | 禁止em dash开头、禁止Wh-问句开头 | "—然而,我们发现…" |
5.5 可审计流程:avoid-ai-writing
四段式输出:识别问题(含引用原文)→ 重写文本 → 修改摘要 → 第二遍审计。全程可追溯,适合需要合规审计的场景。
5.6 推荐组合
| 场景 | 主工具 | 辅助工具 |
|---|---|---|
| 中文论文(知网/万方/维普) | chinese-de-aigc | + revision-guard |
| 英文论文(AER/QJE/JPE) | humanizer_academic | + revision-guard |
| 双语论文 | chinese-de-aigc + humanizer_academic | + revision-guard |
| 需要审计报告 | avoid-ai-writing | + stop-slop |
06 引用与排版:Zotero MCP + Emory工作流
6.1 Zotero MCP服务器
Zotero文献库直连AI,实现:
- 论文评审:读PDF→提取核心论点→生成摘要
- 引用分析:某篇论文被谁引用了?引用脉络是什么?
- PDF标注:自动高亮关键段落,生成阅读笔记
这意味着AI可以直接访问你的文献库,而不是每次都从零搜索。
6.2 claude-code-my-workflow(Emory大学Econ 730课程)
源自Emory大学经济学研究生课程,已被15个研究组采用。这套工作流的核心是质量三级门槛:
| 门槛 | 分数 | 含义 |
|---|---|---|
| 通过 | ≥80 | 可以提交给导师/合作者 |
| 良好 | ≥90 | 可以投稿 |
| 优秀 | ≥95 | 可以投顶刊 |
14个Agent / 28个Skills / 6个Hooks构成完整流水线:
- 三遍XeLaTeX编译(确保交叉引用、目录、页码正确)
- 多Agent对抗评审(模拟审稿人质疑,提前修复漏洞)
- 质量三级门槛自动评分
6.3 实用建议:先搭骨架再填肉
整个写作-修改-排版流程的核心策略:
Strategist(策划者)
→ 规划论文骨架(五要素引言、识别策略、结果结构)
Composer / Drafter(起草者)
→ 按骨架填充内容(基准回归、稳健性、异质性)
修改Skills(copy-edit-master + revision-guard)
→ 打磨细节(结构、行文、去AI味、格式)
每步都有检查点(Git commit)
→ 可回退、可比较、可审计
关键洞察:很多研究者让AI直接"写一篇论文",结果得到的是一堆不连贯的段落。正确的方式是"先搭骨架,再填肉"——让AI知道"这篇论文要论证什么、用什么证据、按什么顺序",然后再生成具体内容。
07 追问:这套流水线的真实边界
7.1 "幻觉检测"能检测所有假引用吗?
academic-research-skills的幻觉检测机制是"生成引用→检索确认"。但这个机制有盲区:
- AI可能把真实存在的论文的作者、年份、期刊编错("张三是2024年发表在JPE"→实际是李四2023年发表在QJE)
- AI可能把真实存在的概念张冠李戴("DID由Angrist提出"→实际不是)
- 某些小众领域文献没有被OpenAlex/CrossRef索引
引用验证是必要的,但不是充分的。最终的把关者还是人。
7.2 "去AI味"会不会把论文改得不像学术写作?
这是一个真实的张力。学术写作本身就有固定惯例:
- "本文发现"比"我们发现"更常见(中文期刊)
- 被动语态在方法论章节是规范("数据被清洗"而非"我们清洗了数据")
- 某些连接词("此外"、"然而")是学术写作的必需品
去AI味Skill的精髓是**"区分惯例和痕迹"**——保留必要的学术规范,去除过度模式化的AI特征。但这需要领域知识,通用规则可能误伤。
7.3 四代理架构的延迟成本
introduction-writer的四代理(Strategist→Drafter→Reviewer→Reviser)每个都独立运行,意味着:
- 4倍API调用
- 4倍token消耗
- 4倍等待时间
对于一篇引言(通常500-800词),这个开销可以接受。但对于整篇论文(8,000-15,000词),四代理架构的成本会显著增加。质量与成本的权衡是真实存在的问题。
7.4 "15个研究组采用"的Emory工作流,适用性有多广?
Emory Econ 730是经济学研究生课程,claude-code-my-workflow的设计也是面向经济学实证论文。对于:
- 理论经济学论文(没有回归表格,全是证明)→ 不适用
- 人文社科论文(论证链条而非系数表格)→ 需要大幅调整
- 自然科学论文(IMRaD结构、实验方法)→ 部分适用
任何工作流都有学科边界,不要盲搬。
08 总结:写作不是造句,是搭骨架
论文写作AI化的核心框架
┌─────────────────────────────────────────────────────────┐
│ 阶段 工具 核心原则 │
├─────────────────────────────────────────────────────────┤
│ 搭骨架 Strategist / Keith Head公式 先规划再填充 │
│ 填肉 Composer / Drafter 按骨架执行 │
│ 审结构 Structure Editor 逻辑链条 │
│ 审行文 Line Editor 句子打磨 │
│ 去AI味 chinese-de-aigc / humanizer 区分惯例与痕迹 │
│ 防退化 revision-guard 锚定+限制+检测 │
│ 排引用 Zotero MCP 库直连 │
│ 出终稿 claude-code-my-workflow 质量三级门槛 │
└─────────────────────────────────────────────────────────┘
一句话收尾:论文写作的本质不是"写出很多字",而是"用逻辑说服审稿人"。AI可以帮你造句、调格式、跑回归,但骨架的设计——选题有没有意义、识别策略可不可信、贡献够不够清楚——仍然是人类的领地。Skill的价值不是替代你的判断,而是把你的判断结构化,让AI知道"按这个方向执行"。先搭骨架,再填肉,每一步都有检查点可回退——这才是AI辅助学术写作的正确打开方式。
参考
- 主仓库:https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research
- CoPaper.AI:https://copaper.ai
- academic-research-skills:https://github.com/Imbad0202/academic-research-skills
- claude-scientific-skills:https://github.com/K-Dense-AI/claude-scientific-skills
- academic-paper-skills:https://github.com/lishix520/academic-paper-skills
- chinese-de-aigc:https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research/tree/main/skills/48
- humanizer_academic:https://github.com/matsuikentaro1/humanizer_academic
- skill-deslop:https://github.com/stephenturner/skill-deslop
- stop-slop:https://github.com/hardikpandya/stop-slop
- avoid-ai-writing:https://github.com/conorbronsdon/avoid-ai-writing
- Emory Econ 730工作流:https://github.com/pedrohcgs/claude-code-my-workflow
- Keith Head引言公式:https://keithhead.wordpress.com/research/
- Zotero MCP:https://github.com/54yyyu/zotero-mcp
#tag #论文写作 #AI学术写作 #去AI味 #Skill #学术排版 #引言写作 #修改润色 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。