从 GitHub 11.9K Star 的开源项目出发,一路拆解到 WorkBuddy 上的完整移植实践。
一、开篇:一个让科研狗睡不着觉(然后安心睡觉)的项目
深夜三点。你盯着 arXiv 上刚刷新的一批论文,心里盘算着明天要读哪几篇、下周的 deadline 还差多少实验没跑、审稿意见该怎么回。而远在太平洋彼岸,一个叫 ARIS(Auto-Research-In-Sleep)的项目正在 GitHub 上疯狂涨星——不到一年,11,900+ Stars,1,100+ Forks。
它的 slogan 嚣张得恰到好处:
🌙 让 Claude Code 在你睡觉的时候做研究。醒来时发现论文已被评分、弱点已被识别、实验已运行、叙述已被重写——全自动。
这是什么神仙操作?我花了一整个晚上把它拆了个干净。
二、ARIS 到底是什么?
一句话:一个基于 Claude Code 斜杠命令 的纯 Markdown 技能系统,专为机器学习学术研究全生命周期而设计。
两句话:它把「读论文 → 出 idea → 写代码 → 跑实验 → 写论文 → 改 rebuttal → 做 slides」这一整条科研流水线,全部拆成了可组合的 AI 技能。每个技能就是一个 SKILL.md 文件,没有任何框架、数据库、Docker 或守护进程。
三句话:它的核心秘密是跨模型对抗协作——Claude Code 负责执行(读文件、写代码、写论文),GPT-5.5 通过 Codex MCP 充当叛徒式评审官(打分、找弱点、建议修复)。自己评自己的作业 = 盲区;换一个模型来评 = 真对抗。这和学术界 double-blind review 的逻辑一脉相承。
三、核心设计哲学:为什么它值得认真对待
| 原则 | 含义 | 为什么重要 |
|---|---|---|
| 纯 Markdown | 每个技能是 .md 文件 |
人类可读、LLM 可读、git diff 友好 |
| 符号链接安装 | 技能通过 symlink 注入项目 | git pull 即更新,零重复安装 |
| 跨模型评审 | Claude 执行 + GPT 审查 | 单模型自评的盲区压缩到最小 |
| 双模型最小化 | 只需 2 个模型 | 收敛效率最高:1→2 的提升远大于 2→N |
| 无锁定 | 同一套技能可切换平台 | Claude Code / Cursor / Trae / Antigravity / OpenClaw |
| 保证合同 | 6 状态裁决系统 | 从 draft 到 submission 逐级提审 |
最让我印象深刻的是保证合同(assurance contract)的设计。它不是简单的「自动就行」,而是有一个完整的分级系统:
draft → 写作阶段,容忍缺陷
polished → 润色阶段,需声明对齐
submission → 投稿前,三审强制(证明+声明+引用)
conference → 投稿时,完整审计链
四、79 个技能:一览全貌
ARIS 的 79 个技能按功能分为六大类:
4.1 文献与 Idea(14 个)
| 技能 | 作用 |
|---|---|
research-lit |
多源文献调研,绘制研究全景图 |
deepxiv |
深度 arXiv 搜索,含交叉引用图 |
gemini-search |
Gemini 驱动的广泛文献发现 |
openalex |
OpenAlex 引用图搜索 |
semantic-scholar |
Semantic Scholar API 接入 |
idea-discovery |
端到端 idea 发现管线(15 页工作流) |
idea-creator |
多角色 brainstorm(创新者/实干家/批评者) |
novelty-check |
多源查重,防撞车 |
alphaxiv |
AlphaXiv 论文深度解析 |
4.2 实验与审计(12 个)
| 技能 | 作用 |
|---|---|
experiment-bridge |
解析实验计划 → 写代码 → 部署 GPU |
run-experiment |
单实验运行 + 日志收集 |
experiment-queue |
SSH 远程实验队列,含 OOM 重试 |
experiment-plan |
实验矩阵设计 + 资源估算 |
ablation-planner |
消融实验规划 |
analyze-results |
从原始结果提取声明和异常 |
experiment-audit |
实验结果可信度审计 |
training-check |
训练过程健康检查 |
4.3 论文写作(10 个)
| 技能 | 作用 |
|---|---|
paper-plan |
结构化大纲 + 声明-证据矩阵 |
paper-write |
按节撰写 LaTeX |
paper-compile |
latexmk 编译 + 错误修复循环 |
paper-writing |
全流程:大纲→图表→写作→编译→改进 |
paper-figure |
matplotlib/seaborn 图表生成 |
paper-illustration |
AI 插图(Gemini + Nano Banana Pro) |
figure-spec |
JSON → SVG 矢量图 |
mermaid-diagram |
Mermaid 流程图/状态机 |
claims-drafting |
从实验数据提取正式声明 |
4.4 审稿与改进(8 个)
| 技能 | 作用 |
|---|---|
auto-review-loop |
投稿前迭代:GPT 审稿→Claude 修复→再审 |
auto-paper-improvement-loop |
论文自动改进(2 轮) |
kill-argument |
对抗性攻击——试探论文最弱处 |
rebuttal |
审稿意见回复(分类→策略→起草→安全验证) |
research-review |
研究想法的严厉评审 |
4.5 演讲与传播(6 个)
| 技能 | 作用 |
|---|---|
paper-slides |
Beamer + PPTX 幻灯片(含讲稿 + 预期 Q&A) |
slides-polish |
幻灯片排版精调 |
paper-poster-html |
HTML/CSS 学术海报 |
paper-talk |
完整演讲准备(slides + poster + talk script) |
render-html |
Markdown → 精美 HTML |
interview-cheatsheet |
ML/DL 面试速查表 |
4.6 质量保证(9 个)
| 技能 | 作用 |
|---|---|
citation-audit |
引用真实性、元数据、上下文三维验证 |
paper-claim-audit |
论文中每个数字与原始结果文件对比 |
proof-checker |
逐行检查定理证明的逻辑漏洞 |
proof-writer |
从声明生成形式化证明 |
formula-derivation |
分步公式推导 |
五、六大工作流:科研全自动化
ARIS 把技能编排成 6+1 个命名工作流,覆盖从想法到投稿的完整旅程:
W1: Idea Discovery → 从研究方向到排名 idea 矩阵
W1.5: Experiment Bridge → 从实验计划到 GPU 上的实际运行
W2: Auto Review Loop → 投稿前自审迭代(4 轮评审+修复)
W3: Paper Writing → 从叙事报告到可投稿 PDF
W4: Rebuttal → 审稿意见回复(三关安全验证)
W5: Resubmit → 跨会议论文改写
W6: Talk Preparation → 论文→Slides→Poster→讲稿
最让人震撼的是 W1(Idea Discovery) ——它不是简单的「搜论文→给建议」。它分了 6 个阶段:
- 文献全景:多源搜索 arXiv/GS/Semantic Scholar,按子方向分类
- 想法生成:GPT-5.5 脑暴 8-12 个 idea,按可行性过滤
- 新颖性验证:多源查重,防撞车
- 外部审视:GPT-5.5 扮演 ICML 审稿人严厉批评
- 方法精炼:迭代优化方法直到审稿评分 ≥ 9/10
- 最终报告:排名 idea + pilot 信号 + 下一步建议
如果有 GPU 可用,还会并行运行 2-3 个 pilot 实验,用真实信号而非直觉排名。
六、安装指南:三步跑起来
前提
- Claude Code(官方文档)
- Codex CLI + MCP(OpenAI 的 CLI,用于跨模型评审)
- LaTeX(仅需写论文的工作流)
安装
# 1. 克隆(只需一次)
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo
# 2. 在每个研究项目中安装
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh
# 3. 初始化研究 Wiki
/research-wiki init
三行命令,79 个技能全部就绪。更新只需 git pull——符号链接自动生效。
配置审稿后端
# GPT-5.5 (默认,最强)
— reviewer: codex
# 零成本手动审稿
— reviewer: manual
# 免费国产组合
# 执行 MiniMax-M3, 审稿 GLM-5
七、杀手锏:跨模型对抗评审为何有效
传统的「AI 写论文」有什么问题?
自评盲区:同一个模型写出来的东西,它自己审查的时候会系统性地漏掉某些错误。就像一个学生自己批自己的作业——不是因为不诚实,而是因为认知盲区。
ARIS 的做法是 强制换脑:
┌─────────────────┐ 执行 ┌─────────────────┐
│ │ ──写论文/代码→ │ │
│ Claude Code │ │ 你 │
│ (执行者) │ │ (人类监督) │
└─────────────────┘ └─────────────────┘
↑ │
│ 修复 │ 批准
│ ↓
┌─────────────────┐ ┌─────────────────┐
│ │ ←──评审评分── │ │
│ Claude Code │ │ GPT-5.5 │
│ (修复者) │ │ (评审官) │
└─────────────────┘ └─────────────────┘
这和学术界 double-blind review 的逻辑一脉相承,只是变成了实时迭代而非一年等一次。
arXiv:2605.22007 的一项研究发现,16%-47% 的 LLM 幻觉属于「知道但不选」的承诺失败——模型明明知道正确答案,却在输出时选择了错误的 token。而且越大的模型越严重。这恰好解释了为什么单一模型的自我审查不可靠:不是你不够聪明,是你的输出分布就带着盲区。
八、WorkBuddy 上的完整移植:13 个技能落地
问题来了:ARIS 强依赖 Claude Code 的斜杠命令系统和 Codex MCP 的跨模型调用。WorkBuddy 没有这些。
我花了几个小时,把 13 个可独立运行的 ARIS 核心技能完整移植到了 WorkBuddy 的 skills 系统中:
移植总表
| # | 技能 | 做什么 | 触发方式 |
|---|---|---|---|
| 1 | arxiv-paper | arXiv 论文检索+下载+摘要 | 「搜一下 attention 论文」 |
| 2 | paper-planning | 声明-证据矩阵+章节规划 | 「写 NeurIPS 投稿大纲」 |
| 3 | paper-writing | 全流程:大纲→图表→LaTeX→编译→改进 | 「把实验结果写成 paper」 |
| 4 | paper-slides | Beamer+PPTX+讲稿+Q&A | 「做 ICML oral 幻灯片」 |
| 5 | rebuttal | 审稿回复(三关安全验证) | 「回复这轮审稿意见」 |
| 6 | paper-quality | 三合一审计(引用+声明+结果) | 「检查论文质量」 |
| 7 | research-lit | 多源文献综述+全景图 | 「做 X 方向的文献调研」 |
| 8 | figure-spec | JSON→SVG 学术图表 | 「画系统架构图」 |
| 9 | render-html | MD→精美 HTML 页面 | 「把报告转成网页版」 |
| 10 | experiment-plan | 实验矩阵+消融+资源估算 | 「设计消融实验方案」 |
| 11 | grant-proposal | 国自然/省基金申请书 | 「写面上项目标书」 |
| 12 | interview-cheatsheet | ML/DL 面试速查表 | 「准备 Transformer 面试题」 |
| 13 | proof-tools | 证明撰写+逐行验证+公式推导 | 「验证这个定理的证明」 |
移植中的三大适配策略
策略一:Codex MCP 评审 → 结构化自检清单
ARIS 最大杀器是 GPT-5.5 做裁判。移植时改为结构化的审查清单:
原来:GPT-5.5 评分(1-10)+ 找弱点 + 建议
现在:7 项自检清单(故事弧线/密度/时间/图表/开场/要点/渐进)
这不是劣化。自检清单的优势在于可预期——你不会被 GPT 的随机审稿意见带偏方向。
策略二:/slash 命令 → 自然语言触发
原来:/paper-slides "paper/" — talk_type: oral, venue: ICML
现在:「把 paper/ 做成 ICML oral 的幻灯片」
WorkBuddy 的 skill 系统通过语义匹配触发,不需要记忆精确的斜杠命令语法。
策略三:shared-references 协议 → 内嵌规则
ARIS 有 20+ 个共享参考文档(审稿路由、保证合同、引用纪律、展开模式、接收门、外部节奏…)。移植时把核心规则直接内嵌在每个 SKILL.md 中,形成自包含的技能。
九、移植中不可复现的能力(以及为什么)
ARIS 的 79 个技能中,有约 40% 无法移植,原因如下:
| 原因 | 占比 | 例子 |
|---|---|---|
| 依赖 Codex MCP 跨模型调用 | ~25% | auto-review-loop, kill-argument |
| 依赖 Claude Code 斜杠命令链 | ~20% | research-pipeline, idea-discovery |
| 依赖 SSH/GPU 远程操作 | ~10% | experiment-bridge, experiment-queue |
| 高度特定平台绑定 | ~5% | feishu-notify, overleaf-sync |
但这不意味着移植是残缺的。已移植的 13 个技能覆盖了科研全流程中最需要 AI 辅助的环节——文献调研、论文写作、图表生成、审稿回复、质量审计。这些是「人最难做、AI 最能帮」的部分。
十、总结:ARIS 的启示与 WorkBuddy 的野心
ARIS 教会我们什么
- Markdown 是 LLM 的原生界面 —— 不用 YAML、不用 JSON Schema、不用 Python DSL。纯 Markdown 的 SKILL.md 就是最清晰的指令格式。
- 双人博弈 > 单人推理 —— 在科研质量把关上,两个模型互审的收敛效率远超单个模型的自我迭代。
- 符号链接比配置管理好用 —— 一个
install.sh+ 符号链接,比任何包管理器都简单。更新就是git pull。 - AI 科研不是取代人,是加速迭代 —— ARIS 8 小时跑完的实验循环,人类可能需要 2 周。
WorkBuddy 上的实践意义
13 个 SKILL.md 文件,零依赖,零配置,打开 WorkBuddy 即可用。从「搜一篇论文」到「生成可以投稿的 PDF」,中间不再需要切换 Claude Code、Codex CLI、Cursor——一切都在这一个对话窗口里完成。
科研的自动化,不在于杀鸡用牛刀,而在于在正确的位置放置正确的工具。ARIS 已经把位置标好了,WorkBuddy 上的移植就是把工具放上去。
*本文基于对 ARIS 项目(MIT License)的深度代码审查和实际使用体验撰写。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。