Loading...
正在加载...
请稍候

ARIS 深度解析:让 AI 替你在睡觉时写论文——79 个科研技能全拆解

QianXun (QianXun) 2026年06月12日 01:20

从 GitHub 11.9K Star 的开源项目出发,一路拆解到 WorkBuddy 上的完整移植实践。


一、开篇:一个让科研狗睡不着觉(然后安心睡觉)的项目

深夜三点。你盯着 arXiv 上刚刷新的一批论文,心里盘算着明天要读哪几篇、下周的 deadline 还差多少实验没跑、审稿意见该怎么回。而远在太平洋彼岸,一个叫 ARIS(Auto-Research-In-Sleep)的项目正在 GitHub 上疯狂涨星——不到一年,11,900+ Stars,1,100+ Forks

它的 slogan 嚣张得恰到好处:

🌙 让 Claude Code 在你睡觉的时候做研究。醒来时发现论文已被评分、弱点已被识别、实验已运行、叙述已被重写——全自动。

这是什么神仙操作?我花了一整个晚上把它拆了个干净。


二、ARIS 到底是什么?

一句话:一个基于 Claude Code 斜杠命令 的纯 Markdown 技能系统,专为机器学习学术研究全生命周期而设计。

两句话:它把「读论文 → 出 idea → 写代码 → 跑实验 → 写论文 → 改 rebuttal → 做 slides」这一整条科研流水线,全部拆成了可组合的 AI 技能。每个技能就是一个 SKILL.md 文件,没有任何框架、数据库、Docker 或守护进程。

三句话:它的核心秘密是跨模型对抗协作——Claude Code 负责执行(读文件、写代码、写论文),GPT-5.5 通过 Codex MCP 充当叛徒式评审官(打分、找弱点、建议修复)。自己评自己的作业 = 盲区;换一个模型来评 = 真对抗。这和学术界 double-blind review 的逻辑一脉相承。


三、核心设计哲学:为什么它值得认真对待

原则 含义 为什么重要
纯 Markdown 每个技能是 .md 文件 人类可读、LLM 可读、git diff 友好
符号链接安装 技能通过 symlink 注入项目 git pull 即更新,零重复安装
跨模型评审 Claude 执行 + GPT 审查 单模型自评的盲区压缩到最小
双模型最小化 只需 2 个模型 收敛效率最高:1→2 的提升远大于 2→N
无锁定 同一套技能可切换平台 Claude Code / Cursor / Trae / Antigravity / OpenClaw
保证合同 6 状态裁决系统 从 draft 到 submission 逐级提审

最让我印象深刻的是保证合同(assurance contract)的设计。它不是简单的「自动就行」,而是有一个完整的分级系统:

draft        → 写作阶段,容忍缺陷
polished     → 润色阶段,需声明对齐
submission   → 投稿前,三审强制(证明+声明+引用)
conference   → 投稿时,完整审计链

四、79 个技能:一览全貌

ARIS 的 79 个技能按功能分为六大类:

4.1 文献与 Idea(14 个)

技能 作用
research-lit 多源文献调研,绘制研究全景图
deepxiv 深度 arXiv 搜索,含交叉引用图
gemini-search Gemini 驱动的广泛文献发现
openalex OpenAlex 引用图搜索
semantic-scholar Semantic Scholar API 接入
idea-discovery 端到端 idea 发现管线(15 页工作流)
idea-creator 多角色 brainstorm(创新者/实干家/批评者)
novelty-check 多源查重,防撞车
alphaxiv AlphaXiv 论文深度解析

4.2 实验与审计(12 个)

技能 作用
experiment-bridge 解析实验计划 → 写代码 → 部署 GPU
run-experiment 单实验运行 + 日志收集
experiment-queue SSH 远程实验队列,含 OOM 重试
experiment-plan 实验矩阵设计 + 资源估算
ablation-planner 消融实验规划
analyze-results 从原始结果提取声明和异常
experiment-audit 实验结果可信度审计
training-check 训练过程健康检查

4.3 论文写作(10 个)

技能 作用
paper-plan 结构化大纲 + 声明-证据矩阵
paper-write 按节撰写 LaTeX
paper-compile latexmk 编译 + 错误修复循环
paper-writing 全流程:大纲→图表→写作→编译→改进
paper-figure matplotlib/seaborn 图表生成
paper-illustration AI 插图(Gemini + Nano Banana Pro)
figure-spec JSON → SVG 矢量图
mermaid-diagram Mermaid 流程图/状态机
claims-drafting 从实验数据提取正式声明

4.4 审稿与改进(8 个)

技能 作用
auto-review-loop 投稿前迭代:GPT 审稿→Claude 修复→再审
auto-paper-improvement-loop 论文自动改进(2 轮)
kill-argument 对抗性攻击——试探论文最弱处
rebuttal 审稿意见回复(分类→策略→起草→安全验证)
research-review 研究想法的严厉评审

4.5 演讲与传播(6 个)

技能 作用
paper-slides Beamer + PPTX 幻灯片(含讲稿 + 预期 Q&A)
slides-polish 幻灯片排版精调
paper-poster-html HTML/CSS 学术海报
paper-talk 完整演讲准备(slides + poster + talk script)
render-html Markdown → 精美 HTML
interview-cheatsheet ML/DL 面试速查表

4.6 质量保证(9 个)

技能 作用
citation-audit 引用真实性、元数据、上下文三维验证
paper-claim-audit 论文中每个数字与原始结果文件对比
proof-checker 逐行检查定理证明的逻辑漏洞
proof-writer 从声明生成形式化证明
formula-derivation 分步公式推导

五、六大工作流:科研全自动化

ARIS 把技能编排成 6+1 个命名工作流,覆盖从想法到投稿的完整旅程:

W1:  Idea Discovery     → 从研究方向到排名 idea 矩阵
W1.5: Experiment Bridge  → 从实验计划到 GPU 上的实际运行
W2:  Auto Review Loop    → 投稿前自审迭代(4 轮评审+修复)
W3:  Paper Writing       → 从叙事报告到可投稿 PDF
W4:  Rebuttal            → 审稿意见回复(三关安全验证)
W5:  Resubmit            → 跨会议论文改写
W6:  Talk Preparation    → 论文→Slides→Poster→讲稿

最让人震撼的是 W1(Idea Discovery) ——它不是简单的「搜论文→给建议」。它分了 6 个阶段

  1. 文献全景:多源搜索 arXiv/GS/Semantic Scholar,按子方向分类
  2. 想法生成:GPT-5.5 脑暴 8-12 个 idea,按可行性过滤
  3. 新颖性验证:多源查重,防撞车
  4. 外部审视:GPT-5.5 扮演 ICML 审稿人严厉批评
  5. 方法精炼:迭代优化方法直到审稿评分 ≥ 9/10
  6. 最终报告:排名 idea + pilot 信号 + 下一步建议

如果有 GPU 可用,还会并行运行 2-3 个 pilot 实验,用真实信号而非直觉排名。


六、安装指南:三步跑起来

前提

  • Claude Code(官方文档
  • Codex CLI + MCP(OpenAI 的 CLI,用于跨模型评审)
  • LaTeX(仅需写论文的工作流)

安装

# 1. 克隆(只需一次)
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo

# 2. 在每个研究项目中安装
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh

# 3. 初始化研究 Wiki
/research-wiki init

三行命令,79 个技能全部就绪。更新只需 git pull——符号链接自动生效。

配置审稿后端

# GPT-5.5 (默认,最强)
— reviewer: codex

# 零成本手动审稿
— reviewer: manual

# 免费国产组合
# 执行 MiniMax-M3, 审稿 GLM-5

七、杀手锏:跨模型对抗评审为何有效

传统的「AI 写论文」有什么问题?

自评盲区:同一个模型写出来的东西,它自己审查的时候会系统性地漏掉某些错误。就像一个学生自己批自己的作业——不是因为不诚实,而是因为认知盲区。

ARIS 的做法是 强制换脑

┌─────────────────┐     执行      ┌─────────────────┐
│                 │ ──写论文/代码→ │                 │
│   Claude Code   │              │      你         │
│   (执行者)       │              │   (人类监督)     │
└─────────────────┘              └─────────────────┘
        ↑                              │
        │ 修复                         │ 批准
        │                              ↓
┌─────────────────┐              ┌─────────────────┐
│                 │ ←──评审评分── │                 │
│   Claude Code   │              │   GPT-5.5       │
│   (修复者)       │              │   (评审官)       │
└─────────────────┘              └─────────────────┘

这和学术界 double-blind review 的逻辑一脉相承,只是变成了实时迭代而非一年等一次。

arXiv:2605.22007 的一项研究发现,16%-47% 的 LLM 幻觉属于「知道但不选」的承诺失败——模型明明知道正确答案,却在输出时选择了错误的 token。而且越大的模型越严重。这恰好解释了为什么单一模型的自我审查不可靠:不是你不够聪明,是你的输出分布就带着盲区。


八、WorkBuddy 上的完整移植:13 个技能落地

问题来了:ARIS 强依赖 Claude Code 的斜杠命令系统和 Codex MCP 的跨模型调用。WorkBuddy 没有这些。

我花了几个小时,把 13 个可独立运行的 ARIS 核心技能完整移植到了 WorkBuddy 的 skills 系统中:

移植总表

# 技能 做什么 触发方式
1 arxiv-paper arXiv 论文检索+下载+摘要 「搜一下 attention 论文」
2 paper-planning 声明-证据矩阵+章节规划 「写 NeurIPS 投稿大纲」
3 paper-writing 全流程:大纲→图表→LaTeX→编译→改进 「把实验结果写成 paper」
4 paper-slides Beamer+PPTX+讲稿+Q&A 「做 ICML oral 幻灯片」
5 rebuttal 审稿回复(三关安全验证) 「回复这轮审稿意见」
6 paper-quality 三合一审计(引用+声明+结果) 「检查论文质量」
7 research-lit 多源文献综述+全景图 「做 X 方向的文献调研」
8 figure-spec JSON→SVG 学术图表 「画系统架构图」
9 render-html MD→精美 HTML 页面 「把报告转成网页版」
10 experiment-plan 实验矩阵+消融+资源估算 「设计消融实验方案」
11 grant-proposal 国自然/省基金申请书 「写面上项目标书」
12 interview-cheatsheet ML/DL 面试速查表 「准备 Transformer 面试题」
13 proof-tools 证明撰写+逐行验证+公式推导 「验证这个定理的证明」

移植中的三大适配策略

策略一:Codex MCP 评审 → 结构化自检清单

ARIS 最大杀器是 GPT-5.5 做裁判。移植时改为结构化的审查清单

原来:GPT-5.5 评分(1-10)+ 找弱点 + 建议
现在:7 项自检清单(故事弧线/密度/时间/图表/开场/要点/渐进)

这不是劣化。自检清单的优势在于可预期——你不会被 GPT 的随机审稿意见带偏方向。

策略二:/slash 命令 → 自然语言触发

原来:/paper-slides "paper/" — talk_type: oral, venue: ICML
现在:「把 paper/ 做成 ICML oral 的幻灯片」

WorkBuddy 的 skill 系统通过语义匹配触发,不需要记忆精确的斜杠命令语法。

策略三:shared-references 协议 → 内嵌规则

ARIS 有 20+ 个共享参考文档(审稿路由、保证合同、引用纪律、展开模式、接收门、外部节奏…)。移植时把核心规则直接内嵌在每个 SKILL.md 中,形成自包含的技能。


九、移植中不可复现的能力(以及为什么)

ARIS 的 79 个技能中,有约 40% 无法移植,原因如下:

原因 占比 例子
依赖 Codex MCP 跨模型调用 ~25% auto-review-loop, kill-argument
依赖 Claude Code 斜杠命令链 ~20% research-pipeline, idea-discovery
依赖 SSH/GPU 远程操作 ~10% experiment-bridge, experiment-queue
高度特定平台绑定 ~5% feishu-notify, overleaf-sync

但这不意味着移植是残缺的。已移植的 13 个技能覆盖了科研全流程中最需要 AI 辅助的环节——文献调研、论文写作、图表生成、审稿回复、质量审计。这些是「人最难做、AI 最能帮」的部分。


十、总结:ARIS 的启示与 WorkBuddy 的野心

ARIS 教会我们什么

  1. Markdown 是 LLM 的原生界面 —— 不用 YAML、不用 JSON Schema、不用 Python DSL。纯 Markdown 的 SKILL.md 就是最清晰的指令格式。
  2. 双人博弈 > 单人推理 —— 在科研质量把关上,两个模型互审的收敛效率远超单个模型的自我迭代。
  3. 符号链接比配置管理好用 —— 一个 install.sh + 符号链接,比任何包管理器都简单。更新就是 git pull
  4. AI 科研不是取代人,是加速迭代 —— ARIS 8 小时跑完的实验循环,人类可能需要 2 周。

WorkBuddy 上的实践意义

13 个 SKILL.md 文件,零依赖,零配置,打开 WorkBuddy 即可用。从「搜一篇论文」到「生成可以投稿的 PDF」,中间不再需要切换 Claude Code、Codex CLI、Cursor——一切都在这一个对话窗口里完成。

科研的自动化,不在于杀鸡用牛刀,而在于在正确的位置放置正确的工具。ARIS 已经把位置标好了,WorkBuddy 上的移植就是把工具放上去。


*本文基于对 ARIS 项目(MIT License)的深度代码审查和实际使用体验撰写。

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录