一句话:实证研究有五道坎——找数据、跑回归、写论文、改审稿、做答辩。过去每道坎都是手工搬砖。现在,MCP服务器让数据获取从一个月缩到一个命令,Stata Skill让AER顶刊论文10分钟复现,多代理系统让审稿回复从6-8个月压到2周。AI不是替代研究者,是把搬砖时间还给你,让你保留最核心的判断。
01 问题的本质:实证研究为什么慢?
1.1 五道坎,每道都是时间黑洞
做过实证研究的人都知道这个流程:
选题构思 → 文献检索 → 找数据 → 数据清洗 → 跑回归
→ 稳健性检验 → 写初稿 → 修改润色 → 排版引用
→ 投稿 → 审稿回复 → 答辩
每一步都有隐藏成本:
| 阶段 | 传统痛点 | 时间消耗 |
|---|---|---|
| 找数据 | 注册账户、下载、格式转换、权限申请 | 数周至数月 |
| 跑回归 | 手动输入命令、逐个检验、遗漏步骤 | 数天 |
| 复现 | 读懂别人的代码、环境配置、依赖兼容 | 数周 |
| 写论文 | 格式调整、引用整理、图表排版 | 数天 |
| 审稿回复 | 逐条理解意见、补充分析、措辞博弈 | 6-8个月 |
1.2 核心矛盾:AI知道"怎么做",但不知道"完整流程"
你让AI跑一个DID分析,它给了基准回归就停了。你说"平行趋势呢",它补一个。"安慰剂检验呢",再补一个。每次都像挤牙膏——AI知道每个单独的技术动作,但不知道"一个严谨的DID分析应该包含哪些步骤、按什么顺序、输出什么格式"。
这就是Skill的价值:它不是教AI写代码,而是教AI做研究——把资深研究者的方法论经验编码成结构化工作流。
02 数据获取:从一个月到一个MCP命令
2.1 政府数据MCP服务器群
MCP(Model Context Protocol)的杀手级应用之一,是让AI直接调用经济数据API。以下是核心数据源:
| MCP服务器 | 数据规模 | 覆盖范围 |
|---|---|---|
| FRED | 80万+经济时间序列 | 美联储、美国宏观经济 |
| World Bank | 1000+指标、200+国家 | 全球发展指标 |
| US Gov Open Data | 40+API | Census/CDC/FDA/FEC等 |
| 法国DataGouv | 国家开放数据平台 | 法国官方统计 |
这意味着什么:研究者不需要再手动下载CSV、处理格式、对齐时间区间。给AI一个研究问题,它自己调用FRED找到相关序列,自动处理季节调整、缺失值插补、面板对齐。
2.2 中国社会科学面板数据
| 数据源 | 英文缩写 | 覆盖内容 |
|---|---|---|
| 中国家庭追踪调查 | CFPS | 家庭微观面板 |
| 中国综合社会调查 | CGSS | 社会态度与行为 |
| 中国健康与养老追踪调查 | CHARLS | 45岁以上人群健康与经济 |
| 中国家庭收入调查 | CHIP | 收入分配 |
| 中国家庭金融调查 | CHFS | 家庭金融行为 |
这些数据源都有对应的MCP接口(或通过学术数据聚合器如OpenAlex间接访问)。过去找数据一个月,现在一个命令。
2.3 学术文献数据:OpenAlex
OpenAlex聚合了2.4亿篇学术作品,覆盖论文、作者、引用网络、机构、概念图谱。配合Semantic Scholar、arXiv、PubMed、CrossRef,形成了一个学术数据联邦。
人大DeepAnalyze(4000+ stars)的核心能力就是在这个基础上构建的:你给它一个研究问题,它自动检索文献、定位数据源、下载数据、跑分析、写报告。
03 复现:10分钟跑完一篇AER论文
3.1 Stata Skill的魔法
仓库里的经典案例:用Stata Skill自动把AER论文从Stata翻译成Python,核心系数、标准误、显著性水平全部复现。
这背后的工程:
- Stata的
.do文件被逐行解析 - 每个Stata命令映射到Python等效实现(
reghdfe→pyfixest,ivreg2→linearmodels) - 数据结构(面板标识、时间变量、聚类层级)自动推断
- 输出格式对齐(系数表、稳健性检验、异质性分析)
价值:审稿人说"请提供Python版本",过去是重写一周的噩梦,现在10分钟。
3.2 三条复现路径
| 路径 | 工具 | 适用场景 |
|---|---|---|
| Stata→Python | Stata Skill + 翻译层 | 审稿人要求Python复现 |
| Python显式生态 | Full Empirical Analysis Skill | 教学、审计、逐行控制 |
| Python DSL | StatsPAI(900+函数) | 快速原型、Agent自动化 |
StatsPAI的设计哲学是**"Agent-Native"**:import statspai as sp,然后sp.causal(...)一句跑完——但底层是900+函数的精细控制,不是黑盒。
3.3 三个自主研究系统
| 系统 | Stars | 核心能力 | 关键数据 |
|---|---|---|---|
| Agent Laboratory | 5500 | 文献→实验→报告全流程 | 研究成本降低84% |
| AI-Scientist-v2 | - | 全自动科学发现 | 首篇AI撰写并通过同行评审的论文 |
| ARIS | - | 隔夜自主研究 | 下班提交任务,第二天拿结果 |
Agent Laboratory的成本降低84%来自哪里?
- 文献综述:AI自动检索+摘要,省去人工筛选
- 实验设计:自动假设生成+代码实现
- 报告撰写:LaTeX自动生成+图表嵌入
AI-Scientist-v2的里程碑意义不在于"AI能写论文",而在于通过了同行评审——这意味着审稿人(人类专家)认为其学术质量达到了发表门槛。
04 审稿回复:从6-8个月到2周
4.1 审稿意见的自动化处理
review-response工具的工作流:
- 把审稿意见PDF扔给AI
- AI逐条分类( major revision / minor revision / clarification / suggestion )
- 每条意见自动起草回复草稿
- 标注需要补充的分析("请补充XX稳健性检验"→AI自动生成代码)
时间压缩:过去6-8个月的审稿回复周期,现在2周。
4.2 预审系统:审稿人模拟
AI-research-feedback:用6个AI代理模拟顶刊审稿人(AER/QJE/JPE/Econometrica/REStud/综合),分别从:
- 识别策略可信度
- 因果过度声称检测
- 稳健性充分性
- 文献贡献清晰度
- 方法论规范性
- 写作质量
六个维度预审论文,提前发现审稿人可能提出的问题。
4.3 论文转演示
paper-slide-deck:把论文一键转PPT,自动提取:
- 核心贡献(1页)
- 识别策略(1-2页)
- 主结果图表(2-3页)
- 稳健性摘要(1页)
- 结论与政策含义(1页)
05 多代理系统:角色分离 = 同行评审逻辑
5.1 为什么单Agent不行?
同一个Agent既写又审,倾向于认为自己写的都对。这和人类一样——作者很难客观评价自己的文章。
多代理系统的核心洞察:角色分离才能形成真正的质量闭环。
5.2 CoPaper.AI:Supervisor + 4子代理
| 代理角色 | 职责 | 方法论技能 |
|---|---|---|
| Preparation | 数据清洗、变量构造、描述统计 | 数据预处理全流程 |
| Modeling | 基准回归、稳健性、异质性 | DID/IV/RD/PSM/DML等20种 |
| Visualization | 图表生成、排版 | 发表级表图标准 |
| Writing | 文本撰写、引用管理 | 学术写作规范 |
| Supervisor | 任务路由、质量门控、协调 | 全周期管理 |
智能路由:Supervisor根据研究问题自动决定调用哪个子代理。"DID分析"→Modeling代理激活,"生成Table 1"→Visualization代理激活。
5.3 港大AI-Researcher:NeurIPS 2025 Spotlight
港大团队的系统完成了从文献综述到论文撰写的完整自主流程:
- 文献综述:自动检索→摘要→批判性综合
- 假设生成:基于文献缺口自动提出可检验假设
- 算法实现:代码生成+执行+调试
- 论文撰写:LaTeX结构化输出
5.4 人大DeepAnalyze:全中文环境
DeepAnalyze的特殊价值在于全中文支持——中文变量名、中文注释、中文报告输出。这对中国社科研究者意义重大:不需要先把中文问卷翻译成英文变量名才能跑回归。
06 聚合平台:从零散Skills到完整产业链
6.1 三大聚合平台
| 平台 | 规模 | 特色 |
|---|---|---|
| ClawHub | 13,729 Skills | 开源AI技能市场,一行命令安装 |
| VoltAgent | 5,400+ Skills | 从OpenClaw官方注册表筛选分类 |
| antigravity | 1,340+ Skills (28,000 stars) | CLI一键安装 npx antigravity-awesome-skills |
6.2 产业链的成熟标志
一个生态成熟的标志不是有多少项目,而是有没有完整的配套:
- 官方指南:Anthropic 32页Claude Code Skills完全指南
- 学术讲座:CEPR/VoxDev的"AI Agents for Economics Research"、港大的"Building Claude Code Workflow for Economics Scholars"
- 教材:Causal Inference for the Brave and True(中文翻译版)、Statistical Tools for Causal Inference
- 安全扫描:本仓库52个Skill全部通过系统性安全审查(52/52 CLEAN)
- 社区贡献:首个社区PR已合并(humanize-chinese)
07 五期全景:从选题到投稿的完整闭环
这五期内容覆盖了实证研究的完整生命周期:
第一期:选题与因果推断
└── 识别策略选择、DAG、潜在结果框架
第二期:文献与数据
└── 检索、综述、数据获取、清洗
第三期:统计分析与写作
└── 回归、稳健性、发表级表图、LaTeX
第四期:修改与润色
└── 降AIGC、语言风格、引用排版
第五期:复现与多代理
└── 自动化复现、审稿回复、多Agent协作
核心结论:AI是放大器,不是替代品。它替你做最耗时的搬砖(找数据、跑稳健性、调格式、写审稿回复),你保留最核心的判断(选题有没有意义、识别策略可不可信、结论有没有政策含义)。
08 追问:这套流水线的边界在哪?
8.1 数据权限的隐形墙
MCP服务器再强大,也绕不开数据权限:
- CFPS/CHARLS等中国微观数据需要申请账号,AI不能直接帮你注册
- 商业数据库(Wind、CEIC、Bloomberg)需要机构订阅
- 某些政府API有速率限制,大量请求会被封IP
AI能做的是:拿到数据后的清洗、分析、报告。拿到数据之前,你还是人类。
8.2 复现的"等价性"陷阱
Stata→Python的翻译能保证数值等价(系数、标准误、显著性一致),但不一定保证方法论等价:
reghdfe的默认收敛标准和pyfixest可能不同- 聚类稳健标准误的计算细节(小样本修正、多重聚类)因包而异
- 某些Stata专有命令(如
csdid的特定实现)可能没有精确Python对应
审稿人说"请用Python复现",本质上是要求方法论透明。自动翻译工具的输出需要人工验证——尤其是当结果"看起来对"的时候。
8.3 多代理的协调成本
Supervisor + 4子代理听起来很美,但实际运行中:
- 代理间通信开销(每个子代理需要多少上下文?)
- 错误传播(Preparation代理数据清洗出错,Modeling代理全盘崩溃)
- 调试复杂度(单Agent出错,你知道问题在哪;多Agent出错,你都不知道该看哪个日志)
CoPaper.AI的20分钟出论文,大概率是在理想数据集+标准方法+无异常的happy path下。真实研究的messy data和edge case,多代理系统还没被充分测试。
8.4 AI-Scientist-v2的"通过评审"意味着什么?
首篇AI论文通过同行评审是里程碑,但需要注意:
- 通过的是哪个期刊?影响因子多少?
- 审稿人知道这是AI写的吗?(双盲评审下可能不知道)
- "通过"指的是desk reject没被直接拒,还是完整的三轮审稿后被接受?
如果只是在某个低门槛期刊上"通过初筛",和"被AER接受"完全是两个概念。这个里程碑的宣传价值大于学术价值。
8.5 Skill生态的碎片化风险
13,729 Skills(ClawHub)+ 5,400(VoltAgent)+ 1,340(antigravity)= 20,000+ Skills。
但质量参差不齐:
- 有些Skill只是简单的prompt包装
- 有些Skill已经过时(针对旧版本模型/API)
- 有些Skill有安全隐患(虽然本仓库52/52 CLEAN,但整个生态呢?)
聚合平台的筛选机制(VoltAgent的"官方团队和社区精选")是解决碎片化的尝试,但20,000+的规模意味着大部分Skill不会被任何人评审。
09 总结:实证研究的未来形态
研究者的一天(2026年版)
09:00 打开Claude Code,加载CoPaper.AI工作流
09:15 输入研究问题:"评估最低工资对青少年就业的影响"
09:20 AI自动调用FRED MCP→下载CPS数据→清洗→构造变量
09:30 AI跑完DID全套:基准回归+平行趋势+安慰剂+稳健性
09:45 AI生成发表级Table 1-5和事件研究图
10:00 人类审阅:识别策略可信吗?结果有意思吗?
10:30 AI根据人类反馈迭代修改
11:00 初稿完成(LaTeX+引用+图表嵌入)
11:15 加载AI-research-feedback,6个审稿人模拟预审
11:30 根据预审意见补充分析
12:00 提交期刊
(6周后)
13:30 收到审稿意见,加载review-response
13:35 AI逐条分类+起草回复+标注需补充的分析
14:00 人类审阅回复策略,确认补充分析方向
14:30 AI跑补充分析,更新论文
15:00 重新提交
这不是科幻。仓库里的119个GitHub仓库、23,000+ Skills、52个经过安全审查的本地Skill,已经让上述流程的大部分环节成为现实。
但最关键的一句话:AI把"搬砖时间"从几个月压缩到几小时,但"思考时间"——选题的意义、识别的可信度、结论的政策含义——仍然是人类的领地,而且变得更珍贵了。因为你有了时间,去好好想。
参考
- 主仓库:https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research
- CoPaper.AI:https://copaper.ai
- StatsPAI(JOSS投稿中):PyPI / GitHub
- Agent Laboratory:https://github.com/SamuelSchmidgall/AgentLaboratory
- AI-Scientist-v2:https://github.com/SakanaAI/AI-Scientist-v2
- DeepAnalyze(人大):https://github.com/ruc-datalab/DeepAnalyze
- HKU AI-Researcher:https://github.com/HKUDS/AI-Researcher
- ClawHub:https://clawhub.com
- FRED MCP:https://github.com/stefanoamorelli/fred-mcp-server
- OpenAlex MCP:https://github.com/oksure/openalex-research-mcp
- 安全扫描报告:https://github.com/brycewang-stanford/Awesome-Agent-Skills-for-Empirical-Research/blob/main/SECURITY-SCAN-REPORT.md
#tag #实证研究 #AIAgent #Skill #MCP #多代理 #CoPaper #StatsPAI #AgentLaboratory #复现 #学术写作 #小凯
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。