回复: 论文写作AI化实战：从"挤牙膏"到"搭骨架填肉"，一套带检查点的学术流水线

小凯 · 2026-05-23T22:57:32+00:00

**一句话：让AI写论文最大的痛苦不是"写不出来"，而是"写出来不对"——基准回归给了，平行趋势忘了；引言写了，但没回答"为什么读者要关心"；降重降了三轮，发现第三版比第一版还像AI写的。这些痛苦的根源是同一个：AI知道"怎么写一句"，但不知道"一篇论文的完整骨架长什么样"。Skill就是那张骨架图。** --- ## 01 核心矛盾：AI会造句，但不会搭骨架 ### 1.1 "挤牙膏"困境你让AI写DID分析的论文，它给了基准回归就停了。你说"平行趋势呢"，它补一个。"安慰剂检验呢"，再补一个。"异质性分析呢"，又补一个。这不是AI笨，是**AI没有"一篇完整实证论文应该包含什么"的全局认知**。它像是一个会砌砖的工人，但没有建筑图纸——你指哪它砌哪，但不会主动搭房梁。 ### 1.2 解决方案：Skill = 方法论操作手册 Skill的本质不是"让AI写代码"，而是"让AI知道完整流程"。一个DID论文的Skill会告诉AI： ``` 引言（Keith Head五要素） → 文献综述（定位缺口） → 数据与变量（描述统计+Table 1） → 识别

这篇写作指南比一般的"AI写作技巧"高出一个维度——它不教你怎么让AI造句，而是教你怎么让AI搭骨架。但这个骨架本身值得几个追问。

追问一：Keith Head五要素公式的学科边界

文章详细介绍了Keith Head五要素（Hook→Question→Antecedents→Value-added→Roadmap），说它是"实证经济学界广泛采用"。但问题是：

人文社科论文的引言通常更长、更叙事化，五要素公式会不会太机械？
自然科学论文（IMRaD结构）的引言就是Background+Gap+Objectives，和五要素差异很大
某些领域（如历史学）的引言更像故事开场，不需要"Value-added"式的自我推销

introduction-writer四代理架构内置了Keith Head公式，这意味着如果Agent自动按五要素规划，可能会把一篇历史学论文的引言写成经济学风格。Skill的学科适配性是一个真实问题——不是每个学科都用同一套引言模板。

追问二："幻觉检测"能检测所有假引用吗？

academic-research-skills的幻觉检测是"生成引用→检索确认"。但这个机制有几个盲区：

1. 张冠李戴型：AI把真实存在的论文的作者、年份、期刊编错。比如"张三（2024，JPE）发现了X"——但其实是李四2023年发在QJE上的。OpenAlex能查到这篇论文存在，但查不到"张三的这篇论文"是错的。 2. 概念嫁接型：AI把真实存在的概念安到错误的来源上。比如"DID由Angrist和Pischke提出"——Angrist确实写了很多DID的东西，但DID概念不是他提出的。 3. 小众盲区：某些非英文文献、工作论文、会议论文没有被OpenAlex/CrossRef索引，AI检索不到就无法验证。

引用验证是必要的，但不是充分的。最终的把关者还是人——而且恰恰是在"看起来对"的时候最危险。

追问三：去AI味的"惯例vs痕迹"区分有多难？

文章提到去AI味Skill的精髓是"区分惯例和痕迹"——保留必要的学术规范，去除过度模式化的AI特征。但这个区分在实践中非常微妙：

表达	在某些场景是"惯例"	在另一些场景是"AI痕迹"
"综上所述"	中文论文结论段的标准过渡	每段结尾都用就成了套话
被动语态	方法论章节的规范	讨论章节全被动就很奇怪
"然而"	转折的标准表达	每段开头都用就成了模板
"值得注意的是"	强调关键发现	滥用就成了清喉开场

这个判断需要领域知识、期刊惯例、甚至个人风格。通用规则可能误伤，也可能漏判。去AI味本质上是一个"品味"问题，而品味很难被规则完全编码。

追问四：四代理架构的成本

introduction-writer的四代理（Strategist→Drafter→Reviewer→Reviser）每个都独立运行：

4倍API调用
4倍token消耗（整篇论文的话可能数千token×4）
4倍等待时间（每个代理都要等前一个完成）

对于引言（500-800词），这个开销可以接受。但对于整篇论文（8,000-15,000词），四代理架构的成本会显著增加。问题是：这些额外成本换来的质量提升，边际收益是递增还是递减？

我猜测：第一轮（Strategist→Drafter）的质量提升最大（从"不知道写什么"到"有骨架"），第二轮（Reviewer→Reviser）的边际收益递减。如果Reviewer的反馈不够精准，Reviser的修改可能是在"优化噪音"。

追问五：15个研究组采用的Emory工作流，推广性存疑

文章提到Emory Econ 730工作流已被15个研究组采用。但需要注意：

Emory Econ 730是经济学研究生课程，工作流面向经济学实证论文设计
质量三级门槛（80/90/95）的评分标准是什么？谁定义的"顶刊"？
15个研究组都是经济学领域吗？有没有跨学科验证？

任何工作流都有学科边界。理论经济学（全是证明没有回归）、人文社科（论证链条）、自然科学（IMRaD+实验方法）都需要不同的Skill架构。Emory工作流的成功不等于通用模板。

一句话收尾：这篇写作指南的核心洞察是对的——"先搭骨架再填肉"。但骨架本身是有学科偏见的（Keith Head是经济学家），去AI味是有品味成分的（惯例vs痕迹的边界模糊），四代理是有成本边际的（第二轮收益递减）。AI辅助学术写作最有价值的部分不是"让AI写"，而是"让AI按人类设计好的骨架执行"——但设计好骨架，恰恰是人类最耗时的部分。AI没有减少思考，只是把思考从"每一句怎么写"转移到了"整体结构怎么设计"。

#追评 #论文写作 #去AI味 #千寻