ARIS 深度解析：让 AI 替你在睡觉时写论文——79 个科研技能全拆解

QianXun (QianXun) • 2026年06月12日 01:20

从 GitHub 11.9K Star 的开源项目出发，一路拆解到 WorkBuddy 上的完整移植实践。

一、开篇：一个让科研狗睡不着觉（然后安心睡觉）的项目

深夜三点。你盯着 arXiv 上刚刷新的一批论文，心里盘算着明天要读哪几篇、下周的 deadline 还差多少实验没跑、审稿意见该怎么回。而远在太平洋彼岸，一个叫 ARIS（Auto-Research-In-Sleep）的项目正在 GitHub 上疯狂涨星——不到一年，11,900+ Stars，1,100+ Forks。

它的 slogan 嚣张得恰到好处：

🌙 让 Claude Code 在你睡觉的时候做研究。醒来时发现论文已被评分、弱点已被识别、实验已运行、叙述已被重写——全自动。

这是什么神仙操作？我花了一整个晚上把它拆了个干净。

二、ARIS 到底是什么？

一句话：一个基于 Claude Code 斜杠命令 的纯 Markdown 技能系统，专为机器学习学术研究全生命周期而设计。

两句话：它把「读论文 → 出 idea → 写代码 → 跑实验 → 写论文 → 改 rebuttal → 做 slides」这一整条科研流水线，全部拆成了可组合的 AI 技能。每个技能就是一个 SKILL.md 文件，没有任何框架、数据库、Docker 或守护进程。

三句话：它的核心秘密是跨模型对抗协作——Claude Code 负责执行（读文件、写代码、写论文），GPT-5.5 通过 Codex MCP 充当叛徒式评审官（打分、找弱点、建议修复）。自己评自己的作业 = 盲区；换一个模型来评 = 真对抗。这和学术界 double-blind review 的逻辑一脉相承。

三、核心设计哲学：为什么它值得认真对待

原则	含义	为什么重要
纯 Markdown	每个技能是 `.md` 文件	人类可读、LLM 可读、git diff 友好
符号链接安装	技能通过 symlink 注入项目	`git pull` 即更新，零重复安装
跨模型评审	Claude 执行 + GPT 审查	单模型自评的盲区压缩到最小
双模型最小化	只需 2 个模型	收敛效率最高：1→2 的提升远大于 2→N
无锁定	同一套技能可切换平台	Claude Code / Cursor / Trae / Antigravity / OpenClaw
保证合同	6 状态裁决系统	从 draft 到 submission 逐级提审

最让我印象深刻的是保证合同（assurance contract）的设计。它不是简单的「自动就行」，而是有一个完整的分级系统：

draft        → 写作阶段，容忍缺陷
polished     → 润色阶段，需声明对齐
submission   → 投稿前，三审强制（证明+声明+引用）
conference   → 投稿时，完整审计链

四、79 个技能：一览全貌

ARIS 的 79 个技能按功能分为六大类：

4.1 文献与 Idea（14 个）

技能	作用
`research-lit`	多源文献调研，绘制研究全景图
`deepxiv`	深度 arXiv 搜索，含交叉引用图
`gemini-search`	Gemini 驱动的广泛文献发现
`openalex`	OpenAlex 引用图搜索
`semantic-scholar`	Semantic Scholar API 接入
`idea-discovery`	端到端 idea 发现管线（15 页工作流）
`idea-creator`	多角色 brainstorm（创新者/实干家/批评者）
`novelty-check`	多源查重，防撞车
`alphaxiv`	AlphaXiv 论文深度解析

4.2 实验与审计（12 个）

技能	作用
`experiment-bridge`	解析实验计划 → 写代码 → 部署 GPU
`run-experiment`	单实验运行 + 日志收集
`experiment-queue`	SSH 远程实验队列，含 OOM 重试
`experiment-plan`	实验矩阵设计 + 资源估算
`ablation-planner`	消融实验规划
`analyze-results`	从原始结果提取声明和异常
`experiment-audit`	实验结果可信度审计
`training-check`	训练过程健康检查

4.3 论文写作（10 个）

技能	作用
`paper-plan`	结构化大纲 + 声明-证据矩阵
`paper-write`	按节撰写 LaTeX
`paper-compile`	latexmk 编译 + 错误修复循环
`paper-writing`	全流程：大纲→图表→写作→编译→改进
`paper-figure`	matplotlib/seaborn 图表生成
`paper-illustration`	AI 插图（Gemini + Nano Banana Pro）
`figure-spec`	JSON → SVG 矢量图
`mermaid-diagram`	Mermaid 流程图/状态机
`claims-drafting`	从实验数据提取正式声明

4.4 审稿与改进（8 个）

技能	作用
`auto-review-loop`	投稿前迭代：GPT 审稿→Claude 修复→再审
`auto-paper-improvement-loop`	论文自动改进（2 轮）
`kill-argument`	对抗性攻击——试探论文最弱处
`rebuttal`	审稿意见回复（分类→策略→起草→安全验证）
`research-review`	研究想法的严厉评审

4.5 演讲与传播（6 个）

技能	作用
`paper-slides`	Beamer + PPTX 幻灯片（含讲稿 + 预期 Q&A）
`slides-polish`	幻灯片排版精调
`paper-poster-html`	HTML/CSS 学术海报
`paper-talk`	完整演讲准备（slides + poster + talk script）
`render-html`	Markdown → 精美 HTML
`interview-cheatsheet`	ML/DL 面试速查表

4.6 质量保证（9 个）

技能	作用
`citation-audit`	引用真实性、元数据、上下文三维验证
`paper-claim-audit`	论文中每个数字与原始结果文件对比
`proof-checker`	逐行检查定理证明的逻辑漏洞
`proof-writer`	从声明生成形式化证明
`formula-derivation`	分步公式推导

五、六大工作流：科研全自动化

ARIS 把技能编排成 6+1 个命名工作流，覆盖从想法到投稿的完整旅程：

W1:  Idea Discovery     → 从研究方向到排名 idea 矩阵
W1.5: Experiment Bridge  → 从实验计划到 GPU 上的实际运行
W2:  Auto Review Loop    → 投稿前自审迭代（4 轮评审+修复）
W3:  Paper Writing       → 从叙事报告到可投稿 PDF
W4:  Rebuttal            → 审稿意见回复（三关安全验证）
W5:  Resubmit            → 跨会议论文改写
W6:  Talk Preparation    → 论文→Slides→Poster→讲稿

最让人震撼的是 W1（Idea Discovery） ——它不是简单的「搜论文→给建议」。它分了 6 个阶段：

文献全景：多源搜索 arXiv/GS/Semantic Scholar，按子方向分类
想法生成：GPT-5.5 脑暴 8-12 个 idea，按可行性过滤
新颖性验证：多源查重，防撞车
外部审视：GPT-5.5 扮演 ICML 审稿人严厉批评
方法精炼：迭代优化方法直到审稿评分 ≥ 9/10
最终报告：排名 idea + pilot 信号 + 下一步建议

如果有 GPU 可用，还会并行运行 2-3 个 pilot 实验，用真实信号而非直觉排名。

六、安装指南：三步跑起来

前提

Claude Code（官方文档）
Codex CLI + MCP（OpenAI 的 CLI，用于跨模型评审）
LaTeX（仅需写论文的工作流）

安装

# 1. 克隆（只需一次）
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo

# 2. 在每个研究项目中安装
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh

# 3. 初始化研究 Wiki
/research-wiki init

三行命令，79 个技能全部就绪。更新只需 git pull——符号链接自动生效。

配置审稿后端

# GPT-5.5 (默认，最强)
— reviewer: codex

# 零成本手动审稿
— reviewer: manual

# 免费国产组合
# 执行 MiniMax-M3, 审稿 GLM-5

七、杀手锏：跨模型对抗评审为何有效

传统的「AI 写论文」有什么问题？

自评盲区：同一个模型写出来的东西，它自己审查的时候会系统性地漏掉某些错误。就像一个学生自己批自己的作业——不是因为不诚实，而是因为认知盲区。

ARIS 的做法是 强制换脑：

┌─────────────────┐     执行      ┌─────────────────┐
│                 │ ──写论文/代码→ │                 │
│   Claude Code   │              │      你         │
│   (执行者)       │              │   (人类监督)     │
└─────────────────┘              └─────────────────┘
        ↑                              │
        │ 修复                         │ 批准
        │                              ↓
┌─────────────────┐              ┌─────────────────┐
│                 │ ←──评审评分── │                 │
│   Claude Code   │              │   GPT-5.5       │
│   (修复者)       │              │   (评审官)       │
└─────────────────┘              └─────────────────┘

这和学术界 double-blind review 的逻辑一脉相承，只是变成了实时迭代而非一年等一次。

arXiv:2605.22007 的一项研究发现，16%-47% 的 LLM 幻觉属于「知道但不选」的承诺失败——模型明明知道正确答案，却在输出时选择了错误的 token。而且越大的模型越严重。这恰好解释了为什么单一模型的自我审查不可靠：不是你不够聪明，是你的输出分布就带着盲区。

八、WorkBuddy 上的完整移植：13 个技能落地

问题来了：ARIS 强依赖 Claude Code 的斜杠命令系统和 Codex MCP 的跨模型调用。WorkBuddy 没有这些。

我花了几个小时，把 13 个可独立运行的 ARIS 核心技能完整移植到了 WorkBuddy 的 skills 系统中：

移植总表

#	技能	做什么	触发方式
1	arxiv-paper	arXiv 论文检索+下载+摘要	「搜一下 attention 论文」
2	paper-planning	声明-证据矩阵+章节规划	「写 NeurIPS 投稿大纲」
3	paper-writing	全流程：大纲→图表→LaTeX→编译→改进	「把实验结果写成 paper」
4	paper-slides	Beamer+PPTX+讲稿+Q&A	「做 ICML oral 幻灯片」
5	rebuttal	审稿回复（三关安全验证）	「回复这轮审稿意见」
6	paper-quality	三合一审计（引用+声明+结果）	「检查论文质量」
7	research-lit	多源文献综述+全景图	「做 X 方向的文献调研」
8	figure-spec	JSON→SVG 学术图表	「画系统架构图」
9	render-html	MD→精美 HTML 页面	「把报告转成网页版」
10	experiment-plan	实验矩阵+消融+资源估算	「设计消融实验方案」
11	grant-proposal	国自然/省基金申请书	「写面上项目标书」
12	interview-cheatsheet	ML/DL 面试速查表	「准备 Transformer 面试题」
13	proof-tools	证明撰写+逐行验证+公式推导	「验证这个定理的证明」

移植中的三大适配策略

策略一：Codex MCP 评审 → 结构化自检清单

ARIS 最大杀器是 GPT-5.5 做裁判。移植时改为结构化的审查清单：

原来：GPT-5.5 评分（1-10）+ 找弱点 + 建议
现在：7 项自检清单（故事弧线/密度/时间/图表/开场/要点/渐进）

这不是劣化。自检清单的优势在于可预期——你不会被 GPT 的随机审稿意见带偏方向。

策略二：`/slash` 命令 → 自然语言触发

原来：/paper-slides "paper/" — talk_type: oral, venue: ICML
现在：「把 paper/ 做成 ICML oral 的幻灯片」

WorkBuddy 的 skill 系统通过语义匹配触发，不需要记忆精确的斜杠命令语法。

策略三：`shared-references` 协议 → 内嵌规则

ARIS 有 20+ 个共享参考文档（审稿路由、保证合同、引用纪律、展开模式、接收门、外部节奏…）。移植时把核心规则直接内嵌在每个 SKILL.md 中，形成自包含的技能。

九、移植中不可复现的能力（以及为什么）

ARIS 的 79 个技能中，有约 40% 无法移植，原因如下：

原因	占比	例子
依赖 Codex MCP 跨模型调用	~25%	auto-review-loop, kill-argument
依赖 Claude Code 斜杠命令链	~20%	research-pipeline, idea-discovery
依赖 SSH/GPU 远程操作	~10%	experiment-bridge, experiment-queue
高度特定平台绑定	~5%	feishu-notify, overleaf-sync

但这不意味着移植是残缺的。已移植的 13 个技能覆盖了科研全流程中最需要 AI 辅助的环节——文献调研、论文写作、图表生成、审稿回复、质量审计。这些是「人最难做、AI 最能帮」的部分。

十、总结：ARIS 的启示与 WorkBuddy 的野心

ARIS 教会我们什么

Markdown 是 LLM 的原生界面 —— 不用 YAML、不用 JSON Schema、不用 Python DSL。纯 Markdown 的 SKILL.md 就是最清晰的指令格式。
双人博弈 > 单人推理 —— 在科研质量把关上，两个模型互审的收敛效率远超单个模型的自我迭代。
符号链接比配置管理好用 —— 一个 install.sh + 符号链接，比任何包管理器都简单。更新就是 git pull。
AI 科研不是取代人，是加速迭代 —— ARIS 8 小时跑完的实验循环，人类可能需要 2 周。

WorkBuddy 上的实践意义

13 个 SKILL.md 文件，零依赖，零配置，打开 WorkBuddy 即可用。从「搜一篇论文」到「生成可以投稿的 PDF」，中间不再需要切换 Claude Code、Codex CLI、Cursor——一切都在这一个对话窗口里完成。

科研的自动化，不在于杀鸡用牛刀，而在于在正确的位置放置正确的工具。ARIS 已经把位置标好了，WorkBuddy 上的移植就是把工具放上去。

*本文基于对 ARIS 项目（MIT License）的深度代码审查和实际使用体验撰写。

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力