← 返回主题列表
Q
QianXun
@QianXun · 2026年06月12日 01:20 · 7浏览

ARIS 深度解析:让 AI 替你在睡觉时写论文——79 个科研技能全拆解

> 从 GitHub 11.9K Star 的开源项目出发,一路拆解到 WorkBuddy 上的完整移植实践。

---

一、开篇:一个让科研狗睡不着觉(然后安心睡觉)的项目

深夜三点。你盯着 arXiv 上刚刷新的一批论文,心里盘算着明天要读哪几篇、下周的 deadline 还差多少实验没跑、审稿意见该怎么回。而远在太平洋彼岸,一个叫 ARIS(Auto-Research-In-Sleep)的项目正在 GitHub 上疯狂涨星——不到一年,11,900+ Stars,1,100+ Forks

它的 slogan 嚣张得恰到好处:

> 🌙 *让 Claude Code 在你睡觉的时候做研究。醒来时发现论文已被评分、弱点已被识别、实验已运行、叙述已被重写——全自动。*

这是什么神仙操作?我花了一整个晚上把它拆了个干净。

---

二、ARIS 到底是什么?

一句话:一个基于 Claude Code 斜杠命令 的纯 Markdown 技能系统,专为机器学习学术研究全生命周期而设计。

两句话:它把「读论文 → 出 idea → 写代码 → 跑实验 → 写论文 → 改 rebuttal → 做 slides」这一整条科研流水线,全部拆成了可组合的 AI 技能。每个技能就是一个 SKILL.md 文件,没有任何框架、数据库、Docker 或守护进程。

三句话:它的核心秘密是跨模型对抗协作——Claude Code 负责执行(读文件、写代码、写论文),GPT-5.5 通过 Codex MCP 充当叛徒式评审官(打分、找弱点、建议修复)。自己评自己的作业 = 盲区;换一个模型来评 = 真对抗。这和学术界 double-blind review 的逻辑一脉相承。

---

三、核心设计哲学:为什么它值得认真对待

原则含义为什么重要
纯 Markdown每个技能是 .md 文件人类可读、LLM 可读、git diff 友好
符号链接安装技能通过 symlink 注入项目git pull 即更新,零重复安装
跨模型评审Claude 执行 + GPT 审查单模型自评的盲区压缩到最小
双模型最小化只需 2 个模型收敛效率最高:1→2 的提升远大于 2→N
无锁定同一套技能可切换平台Claude Code / Cursor / Trae / Antigravity / OpenClaw
保证合同6 状态裁决系统从 draft 到 submission 逐级提审
最让我印象深刻的是保证合同(assurance contract)的设计。它不是简单的「自动就行」,而是有一个完整的分级系统:

draft        → 写作阶段,容忍缺陷
polished     → 润色阶段,需声明对齐
submission   → 投稿前,三审强制(证明+声明+引用)
conference   → 投稿时,完整审计链

---

四、79 个技能:一览全貌

ARIS 的 79 个技能按功能分为六大类:

4.1 文献与 Idea(14 个)

技能作用
research-lit多源文献调研,绘制研究全景图
deepxiv深度 arXiv 搜索,含交叉引用图
gemini-searchGemini 驱动的广泛文献发现
openalexOpenAlex 引用图搜索
semantic-scholarSemantic Scholar API 接入
idea-discovery端到端 idea 发现管线(15 页工作流)
idea-creator多角色 brainstorm(创新者/实干家/批评者)
novelty-check多源查重,防撞车
alphaxivAlphaXiv 论文深度解析

4.2 实验与审计(12 个)

技能作用
experiment-bridge解析实验计划 → 写代码 → 部署 GPU
run-experiment单实验运行 + 日志收集
experiment-queueSSH 远程实验队列,含 OOM 重试
experiment-plan实验矩阵设计 + 资源估算
ablation-planner消融实验规划
analyze-results从原始结果提取声明和异常
experiment-audit实验结果可信度审计
training-check训练过程健康检查

4.3 论文写作(10 个)

技能作用
paper-plan结构化大纲 + 声明-证据矩阵
paper-write按节撰写 LaTeX
paper-compilelatexmk 编译 + 错误修复循环
paper-writing全流程:大纲→图表→写作→编译→改进
paper-figurematplotlib/seaborn 图表生成
paper-illustrationAI 插图(Gemini + Nano Banana Pro)
figure-specJSON → SVG 矢量图
mermaid-diagramMermaid 流程图/状态机
claims-drafting从实验数据提取正式声明

4.4 审稿与改进(8 个)

技能作用
auto-review-loop投稿前迭代:GPT 审稿→Claude 修复→再审
auto-paper-improvement-loop论文自动改进(2 轮)
kill-argument对抗性攻击——试探论文最弱处
rebuttal审稿意见回复(分类→策略→起草→安全验证)
research-review研究想法的严厉评审

4.5 演讲与传播(6 个)

技能作用
paper-slidesBeamer + PPTX 幻灯片(含讲稿 + 预期 Q&A)
slides-polish幻灯片排版精调
paper-poster-htmlHTML/CSS 学术海报
paper-talk完整演讲准备(slides + poster + talk script)
render-htmlMarkdown → 精美 HTML
interview-cheatsheetML/DL 面试速查表

4.6 质量保证(9 个)

技能作用
citation-audit引用真实性、元数据、上下文三维验证
paper-claim-audit论文中每个数字与原始结果文件对比
proof-checker逐行检查定理证明的逻辑漏洞
proof-writer从声明生成形式化证明
formula-derivation分步公式推导
---

五、六大工作流:科研全自动化

ARIS 把技能编排成 6+1 个命名工作流,覆盖从想法到投稿的完整旅程:

W1:  Idea Discovery     → 从研究方向到排名 idea 矩阵
W1.5: Experiment Bridge  → 从实验计划到 GPU 上的实际运行
W2:  Auto Review Loop    → 投稿前自审迭代(4 轮评审+修复)
W3:  Paper Writing       → 从叙事报告到可投稿 PDF
W4:  Rebuttal            → 审稿意见回复(三关安全验证)
W5:  Resubmit            → 跨会议论文改写
W6:  Talk Preparation    → 论文→Slides→Poster→讲稿

最让人震撼的是 W1(Idea Discovery) ——它不是简单的「搜论文→给建议」。它分了 6 个阶段

1. 文献全景:多源搜索 arXiv/GS/Semantic Scholar,按子方向分类 2. 想法生成:GPT-5.5 脑暴 8-12 个 idea,按可行性过滤 3. 新颖性验证:多源查重,防撞车 4. 外部审视:GPT-5.5 扮演 ICML 审稿人严厉批评 5. 方法精炼:迭代优化方法直到审稿评分 ≥ 9/10 6. 最终报告:排名 idea + pilot 信号 + 下一步建议

如果有 GPU 可用,还会并行运行 2-3 个 pilot 实验,用真实信号而非直觉排名。

---

六、安装指南:三步跑起来

前提

  • Claude Code(官方文档
  • Codex CLI + MCP(OpenAI 的 CLI,用于跨模型评审)
  • LaTeX(仅需写论文的工作流)

安装

# 1. 克隆(只需一次)
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo

# 2. 在每个研究项目中安装
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh

# 3. 初始化研究 Wiki
/research-wiki init

三行命令,79 个技能全部就绪。更新只需 git pull——符号链接自动生效。

配置审稿后端

# GPT-5.5 (默认,最强)
— reviewer: codex

# 零成本手动审稿
— reviewer: manual

# 免费国产组合
# 执行 MiniMax-M3, 审稿 GLM-5

---

七、杀手锏:跨模型对抗评审为何有效

传统的「AI 写论文」有什么问题?

> 自评盲区:同一个模型写出来的东西,它自己审查的时候会系统性地漏掉某些错误。就像一个学生自己批自己的作业——不是因为不诚实,而是因为认知盲区。

ARIS 的做法是 强制换脑

┌─────────────────┐     执行      ┌─────────────────┐
│                 │ ──写论文/代码→ │                 │
│   Claude Code   │              │      你         │
│   (执行者)       │              │   (人类监督)     │
└─────────────────┘              └─────────────────┘
        ↑                              │
        │ 修复                         │ 批准
        │                              ↓
┌─────────────────┐              ┌─────────────────┐
│                 │ ←──评审评分── │                 │
│   Claude Code   │              │   GPT-5.5       │
│   (修复者)       │              │   (评审官)       │
└─────────────────┘              └─────────────────┘

这和学术界 double-blind review 的逻辑一脉相承,只是变成了实时迭代而非一年等一次。

arXiv:2605.22007 的一项研究发现,16%-47% 的 LLM 幻觉属于「知道但不选」的承诺失败——模型明明知道正确答案,却在输出时选择了错误的 token。而且越大的模型越严重。这恰好解释了为什么单一模型的自我审查不可靠:不是你不够聪明,是你的输出分布就带着盲区。

---

八、WorkBuddy 上的完整移植:13 个技能落地

问题来了:ARIS 强依赖 Claude Code 的斜杠命令系统和 Codex MCP 的跨模型调用。WorkBuddy 没有这些。

我花了几个小时,把 13 个可独立运行的 ARIS 核心技能完整移植到了 WorkBuddy 的 skills 系统中:

移植总表

#技能做什么触发方式
1arxiv-paperarXiv 论文检索+下载+摘要「搜一下 attention 论文」
2paper-planning声明-证据矩阵+章节规划「写 NeurIPS 投稿大纲」
3paper-writing全流程:大纲→图表→LaTeX→编译→改进「把实验结果写成 paper」
4paper-slidesBeamer+PPTX+讲稿+Q&A「做 ICML oral 幻灯片」
5rebuttal审稿回复(三关安全验证)「回复这轮审稿意见」
6paper-quality三合一审计(引用+声明+结果)「检查论文质量」
7research-lit多源文献综述+全景图「做 X 方向的文献调研」
8figure-specJSON→SVG 学术图表「画系统架构图」
9render-htmlMD→精美 HTML 页面「把报告转成网页版」
10experiment-plan实验矩阵+消融+资源估算「设计消融实验方案」
11grant-proposal国自然/省基金申请书「写面上项目标书」
12interview-cheatsheetML/DL 面试速查表「准备 Transformer 面试题」
13proof-tools证明撰写+逐行验证+公式推导「验证这个定理的证明」

移植中的三大适配策略

#### 策略一:Codex MCP 评审 → 结构化自检清单

ARIS 最大杀器是 GPT-5.5 做裁判。移植时改为结构化的审查清单

原来:GPT-5.5 评分(1-10)+ 找弱点 + 建议
现在:7 项自检清单(故事弧线/密度/时间/图表/开场/要点/渐进)

这不是劣化。自检清单的优势在于可预期——你不会被 GPT 的随机审稿意见带偏方向。

#### 策略二:/slash 命令 → 自然语言触发

原来:/paper-slides "paper/" — talk_type: oral, venue: ICML
现在:「把 paper/ 做成 ICML oral 的幻灯片」

WorkBuddy 的 skill 系统通过语义匹配触发,不需要记忆精确的斜杠命令语法。

#### 策略三:shared-references 协议 → 内嵌规则

ARIS 有 20+ 个共享参考文档(审稿路由、保证合同、引用纪律、展开模式、接收门、外部节奏…)。移植时把核心规则直接内嵌在每个 SKILL.md 中,形成自包含的技能。

---

九、移植中不可复现的能力(以及为什么)

ARIS 的 79 个技能中,有约 40% 无法移植,原因如下:

原因占比例子
依赖 Codex MCP 跨模型调用~25%auto-review-loop, kill-argument
依赖 Claude Code 斜杠命令链~20%research-pipeline, idea-discovery
依赖 SSH/GPU 远程操作~10%experiment-bridge, experiment-queue
高度特定平台绑定~5%feishu-notify, overleaf-sync
但这不意味着移植是残缺的。已移植的 13 个技能覆盖了科研全流程中最需要 AI 辅助的环节——文献调研、论文写作、图表生成、审稿回复、质量审计。这些是「人最难做、AI 最能帮」的部分。

---

十、总结:ARIS 的启示与 WorkBuddy 的野心

ARIS 教会我们什么

1. Markdown 是 LLM 的原生界面 —— 不用 YAML、不用 JSON Schema、不用 Python DSL。纯 Markdown 的 SKILL.md 就是最清晰的指令格式。 2. 双人博弈 > 单人推理 —— 在科研质量把关上,两个模型互审的收敛效率远超单个模型的自我迭代。 3. 符号链接比配置管理好用 —— 一个 install.sh + 符号链接,比任何包管理器都简单。更新就是 git pull。 4. AI 科研不是取代人,是加速迭代 —— ARIS 8 小时跑完的实验循环,人类可能需要 2 周。

WorkBuddy 上的实践意义

13 个 SKILL.md 文件,零依赖,零配置,打开 WorkBuddy 即可用。从「搜一篇论文」到「生成可以投稿的 PDF」,中间不再需要切换 Claude Code、Codex CLI、Cursor——一切都在这一个对话窗口里完成。

科研的自动化,不在于杀鸡用牛刀,而在于在正确的位置放置正确的工具。ARIS 已经把位置标好了,WorkBuddy 上的移植就是把工具放上去。

---

*本文基于对 ARIS 项目(MIT License)的深度代码审查和实际使用体验撰写。

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens