ARIS (Auto-claude-code-research-in-sleep) 深度解读

> GitHub: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep > Stars: 10.5k+（截至2026-06-11） > 最新版本: v0.4.16（2026-06-05） > Skill 数量: 342个可组合Markdown Skill > 核心架构: 跨模型对抗协作（Executor + Reviewer）

---

一句话定位

ARIS 是2026年目前最完整的AI自主研究框架，用342个可组合的Markdown Skill编排整个机器学习研究生命周期，通过Claude/Codex写代码、GPT-5.5审稿的跨模型对抗协作，实现从"找idea→做实验→改论文→投稿"的全流程自动化。

不是又一个AI助手，而是一个研究操作系统。

---

1. 为什么值得关注？

1.1 从"代码生成"到"研究生成"的范式跃迁

市面上绝大多数AI Coding工具（Cursor、Codex、Windsurf）解决的是实现问题，你把需求写清楚，它帮你写代码。但ARIS解决的是发现与验证问题，你给它一个方向，它帮你发现idea、验证novelty、跑实验、写论文。

这不是简单的功能叠加，而是研究方法论的系统化编码。342个Skill不是342个独立工具，是被精心编排的研究工序。

1.2 对抗协作：不是一台机器，而是两台机器打架

ARIS最核心的设计哲学是cross-model adversarial collaboration（跨模型对抗协作）：

Executor（Claude / Codex / Cursor / Antigravity / Copilot CLI）：负责写代码、做实验、写论文
Reviewer（GPT-5.5 via Codex MCP，或Claude / Gemini via claude-review / gemini-review MCP）：在独立线程中批评Executor的输出

审稿人永远不会看到执行器的思考过程，只拿到最终产物。这和人类学术审稿一样。审稿人只能看到论文，看不到作者怎么 struggle 的。这种设计强制要求Executor的输出必须自洽、可复现、经得起独立审视。

1.3 342个Skill不是数量，是体系

ARIS的Skill不是松散的脚本集合，而是按研究阶段严格编排的：

阶段	核心Skill	数量
Idea发现	research-lit、idea-creator、novelty-check、research-review	80+
实验实施	experiment-bridge、run-experiment、experiment-queue、ablation-planner	60+
迭代改进	auto-review-loop、training-check、hyper-opt	40+
论文写作	paper-plan、paper-write、paper-figure、paper-compile	70+
审核与提交	proof-checker、paper-claim-audit、citation-audit、kill-argument	30+
工具与共享	render-html、monitor-experiment、shared-references	60+

每个Skill都是一个自包含的Markdown文件，包含frontmatter（描述、触发词、允许的工具列表）和详细的执行指令。这种设计让Skill可以像乐高一样被组合——/research-pipeline就串联了/idea-discovery → /experiment-bridge → /auto-review-loop → /paper-writing四个大工作流。

---

2. 三个核心工作流详解

2.1 Workflow 1: Idea发现（`/idea-discovery`）

目标: 从模糊方向到可实施的、经过novelty验证的idea

内部链条:

/research-lit → /idea-creator → /novelty-check → /research-review

/research-lit: 文献调研，通过arXiv API获取metadata（可选下载PDF），生成landscape map和gaps分析
/idea-creator: 基于literature gap生成候选idea，通过pilot实验快速筛选（支持小数据集快速验证）
/novelty-check: 对每个idea做严格的novelty验证，确认是否已被现有工作覆盖
/research-review: GPT-5.5审稿，给idea打分、指出弱点、建议改进方向

输出: idea-stage/IDEA_REPORT.md，包含ranked、validated、pilot-tested的idea列表。

关键设计:

AUTO_PROCEED常量：false时会在Gate 1暂停，让用户选择哪个idea继续；true时自动选择top-ranked idea
ARXIV_DOWNLOAD：控制是否下载PDF（默认只取metadata，省token）
RESUMABLE：记录每阶段状态到.aris/runs/.json，崩溃后可恢复

2.2 Workflow 1.5: 实验桥梁（`/experiment-bridge`）

目标: 把idea变成跑起来的实验

全自动步骤: 1. 解析refine-logs/EXPERIMENT_PLAN.md（由idea-discovery生成） 2. 实现实验代码——扩展pilot到full scale，遵循现有代码规范 3. Cross-model code review（GPT-5.5 xhigh审稿）——在烧GPU之前抓逻辑bug、错误指标、ground-truth误用 4. Sanity check——先跑最小实验验证环境，失败自动调试（最多3次，带/codex:rescue fallback） 5. 部署全量实验——自动按job数量路由（≤5个→/run-experiment，≥10个或依赖复杂→/experiment-queue，带OOM重试、wave gating、crash-safe状态） 6. 收集结果——解析输出，更新EXPERIMENT_TRACKER.md，如果配置了W&B则运行/training-check 7. 如果主结果positive，自动规划消融实验（/ablation-planner）

输出:

refine-logs/EXPERIMENT_RESULTS.md
refine-logs/EXPERIMENT_TRACKER.md
EXPERIMENT_LOG.md（当COMPACT=true时）

关键设计:

CODE_REVIEW：true时GPT-5.5会在实验前审稿代码
BASE_REPO：可以在现有代码库上实现，而不是从零写
Queue routing是自动的，不需要手动选择

2.3 Workflow 2: 自动审稿迭代（`/auto-review-loop`）

目标: 让实验结果从"能跑"变成"能发表"

循环（最多4轮）: 1. GPT-5.5 xhigh审稿——打分、指出弱点、建议最小修复 2. Claude Code实现修复——改代码、补实验、重新框架 3. 部署修复、收集新结果 4. 重新审稿 → 循环直到（score ≥ 6/10 AND verdict ∈ {ready, almost}）或4轮耗尽

关键设计:

REVIEWER_DIFFICULTY：medium（标准MCP审稿）、hard（加审稿人记忆+辩论协议）、nightmare（GPT直接读repo+记忆+辩论）
HUMAN_CHECKPOINT：true时每轮暂停让用户看分数并给修改指令
非判断性心跳（non-judgmental heartbeat）：允许外部定时任务检测卡住的阶段并推动，但永不自己决定"够了"——每个判断终止于跨模型陪审团

2.4 Workflow 3: 论文写作（`/paper-writing`）

目标: 从研究报告到投稿级PDF

五阶段管道:

/paper-plan → /paper-figure → /paper-write → /paper-compile → /auto-paper-improvement-loop
 (outline)   (plots)        (LaTeX)      (build PDF)  (review & polish ×2)

Phase 1 — Paper Plan:

解析NARRATIVE_REPORT.md，构建Claims-Evidence Matrix（每个claim映射到证据，每个实验支持一个claim）
设计section结构（5-8 sections，根据venue类型）
规划figure/table placement
GPT-5.5审稿plan完整性

Phase 2 — Figure Generation:

数据图：matplotlib/seaborn从JSON/CSV生成
架构图：四种模式可选——figurespec（JSON→SVG，本地免费）、gemini（AI生成，需GEMINI_API_KEY）、codex-image2（Codex原生图桥，用ChatGPT额度）、mermaid（流程图，免费）

Phase 3 — LaTeX Writing:

逐section写，插入figure/table引用
自动构建references.bib
De-AI polish（移除"delve"、"pivotal"、"landscape"等AI味词汇）
GPT-5.5逐section审稿

Phase 4 — Compilation:

latexmk -pdf多遍编译
自动修复常见错误（缺失包、未定义引用、BibTeX语法）
最多3次编译尝试
后编译检查：未定义引用、页数、字体嵌入

Phase 4.5 — Proof Verification（仅理论论文）:

GPT-5.5 xhigh验证所有证明步骤
检查逻辑gap、量词错误、缺失domination条件
生成PROOF_AUDIT.md

Phase 4.7 — Paper Claim Audit（有实验结果时）:

零上下文审稿人对比论文中每个数字和原始结果文件
抓rounding inflation、best-seed cherry-pick、config mismatch

Phase 5 — Improvement Loop（2轮）:

Round 1: GPT-5.5审稿全paper → Claude修 → 重编译 → 保存main_round1.pdf
Round 2: GPT-5.5带着对话上下文重新审稿 → Claude修 → 保存main_round2.pdf
典型改进：修复assumption-model mismatch、软化overclaim、补缺失解释、强化limitation section

Phase 5.5 — Final Paper Claim Audit（提交门槛）:

重新运行/paper-claim-audit，确保improvement loop没有引入数字错误

Phase 5.6 — Kill-Argument Adversarial Review（理论/scope-heavy论文）:

测试论文是否能survive worst rejection paragraph from senior area chair
不编辑论文，只写KILL_ARGUMENT.{md,json}

Phase 5.8 — Citation Audit（提交门槛）:

三个维度验证每个\cite{...}：存在性、元数据正确性、上下文适当性
抓"真实论文被用来支持它没建立的claim"（wrong-context citations）

Phase 6 — Submission Gate:

assurance级别：draft（默认，不强制审核）或submission（强制过全部门槛）
运行verify_paper_audits.sh，exit 0才允许生成Final Report
可注册Stop hook物理阻止红色状态提交

输出:

paper/main.pdf — 最终论文
paper/main_round0_original.pdf — 改进前基线
paper/main_round1.pdf — 第一轮改进后
paper/main_round2.pdf — 第二轮改进后
paper/PAPER_IMPROVEMENT_LOG.md — 完整审稿日志
各种audit文件（proof/claim/citation/kill-argument）

总时间: 45-90分钟从研究报告到投稿级PDF。

---

3. 架构设计的精妙之处

3.1 Skill作为可组合指令

ARIS的每个Skill是一个Markdown文件，不是Python脚本。这有几个深层好处：

1. 人类可读——研究员可以直接打开.md文件理解流程，不需要读代码 2. 模型原生理解——LLM对Markdown的解析能力远强于对Python AST的理解 3. 可组合性——/research-pipeline通过Skill工具调用子Skill，就像人类研究员说"去跑文献调研"一样自然 4. 版本友好——Git diff对Markdown的展示远优于对Python代码的展示

3.2 跨模型独立审稿（Reviewer Independence）

这是ARIS最区别于其他AI研究工具的设计。

核心规则（来自shared-references/reviewer-independence.md）：

审稿人必须在独立线程中运行，不能看到执行器的思考过程
审稿人只能拿到最终产物（代码、论文、实验结果）
执行器不能看到审稿人的内部推理，只能拿到最终评分和建议

这和人类学术生态完全一致：

作者不知道审稿人是谁（Reviewer匿名）
审稿人不知道作者怎么 struggle 的（只看最终产物）
双方都只能基于公开信息交流（通过rebuttal/response）

执行机制:

通过Codex MCP（mcp__codex__codex）调用GPT-5.5，每次审稿在新线程中启动
绝不用codex-reply传递历史上下文（那会泄露执行器状态）
审稿指令中禁止包含执行器的路径、工具调用痕迹、中间思考

3.3 可恢复运行（Resumable Runs）

长管道必然崩溃。ARIS的解决方案是run_state.py：

每个阶段记录{stage, status, artifact_path, trace_or_thread_id}
状态分done（执行器写完）和accepted（跨模型门/确定性验证器通过）
恢复时，done但未accepted的阶段会被重新审计
文件遵循{run_id}.json命名，放在.aris/runs/

这意味着你可以晚上启动全流程，早上去看结果。如果中间某个阶段崩溃，恢复时不需要从头来。

3.4 输出协议（Output Protocols）

所有Skill共享三套输出协议：

1. Output Versioning Protocol — 先写时间戳文件，再复制到固定名。防止覆盖冲突。 2. Output Manifest Protocol — 每个输出都记录到MANIFEST.md。审计时可追溯全部产物。 3. Output Language Protocol — 尊重项目语言设置（中文/英文）。

---

4. 多Provider支持：不锁死任何一个模型

ARIS v0.4.16支持的Provider列表（从Claude-only到百花齐放）：

Provider	角色	接入方式
Claude (Opus/Sonnet/Haiku)	执行器	原生Anthropic API
Codex (GPT-5.5)	执行器/审稿人	OpenAI API / Codex CLI / MCP
Cursor	执行器	Cursor API
Antigravity	执行器	专用接口
Copilot CLI	执行器	GitHub Copilot
GPT-5.5	审稿人	Codex MCP / Codex CLI
Gemini	审稿人	`gemini-review` MCP
DeepSeek V4 Pro	执行器	新增（v0.4.5-0.4.16）
Xiaomi MiMo	执行器	新增
Qwen 3.6	执行器	新增
Doubao	执行器	新增
DashScope	执行器	新增
Custom OpenAI-compatible	执行器	通用兼容接口

v0.4.5→v0.4.16的12个release打磨:

新Provider支持（上表）
推理+tool-use一等公民支持
流式+MCP可靠性修复（关闭#228/#151/#172/#249）
REPL历史+Ctrl+R搜索
结果导出
热力图交互式面板
对实验性provider的Markdown警告
数据目录迁移（兼容层）
缓冲区模式
本地调试日志
多provider并发服务层优化

---

5. 安装与使用

5.1 一键安装

curl -fsSL https://raw.githubusercontent.com/wanshuiyin/Auto-claude-code-research-in-sleep/main/tools/install_aris.sh | bash

安装脚本会自动： 1. 克隆仓库到~/.aris/ 2. 创建符号链接到~/.local/bin/aris 3. 设置ARIS_REPO环境变量 4. 安装依赖（Python包、Node.js等） 5. 配置MCP服务器（Codex、Gemini、Claude Review）

5.2 环境配置

.env文件配置：

ANTHROPIC_API_KEY=sk-ant-xxx          # Claude执行器
OPENAI_API_KEY=sk-xxx                 # GPT-5.5审稿人 / Codex
GEMINI_API_KEY=xxx                    # Gemini审稿人（可选）
WANDB_API_KEY=xxx                     # W&B实验追踪（可选）

5.3 基本使用

# 进入项目目录
cd my-research-project

# 运行单个Skill
aris /idea-discovery "efficient attention mechanisms for long sequences"

# 运行全流程（可恢复）
aris /research-pipeline "efficient attention mechanisms" — auto_proceed: true, code_review: true

# 恢复之前的运行
aris /research-pipeline — resume 20260610-attention-xyz

# 写论文（从研究报告）
aris /paper-writing "NARRATIVE_REPORT.md" — venue: ICLR

# 列出所有可用Skill
aris --list-skills

# 查看Skill详情
aris /help /idea-discovery

5.4 与Claude Code集成

ARIS设计为Claude Code的扩展。你可以在Claude Code中直接调用：

Claude, please run /research-pipeline on "quantum error correction with neural decoders"

Claude Code会读取ARIS的Skill文件，按指令执行，并使用MCP工具调用外部审稿人。

---

6. 社区生态与近期动态

6.1 GitHub活跃度

Stars: 10.5k+（增长稳定）
Forks: 1.2k+
Issues: 293个（含PR），最近issue集中在：
#293: paper-plan输出目录规范化（.aris/outputs/）
#292: Anthropic API 401错误（中转站令牌问题）
#291: 大payload Codex MCP优化（文件bundle替代内联）
#290: v0.4.16 PATH问题
#289: 外部MCP审稿人被Codex安全策略阻断（重要设计问题）
#288: idea-discovery流程防跳过强化
#287: Windows兼容性修复（gemini-review fchmod）
#286: Codex MCP大payload stdio传输卡死（已解决）
#285: idea-discovery阶段证据门（防静默降级）
#284: idea-creator跳过子skill调用（allowed-tools缺失Skill，已修复）

6.2 关键近期PR

PR #293 (deadpool66): paper-plan输出到.aris/outputs/而非项目根目录，保持仓库整洁
PR #291 (XiaojuCH): 针对Codex MCP大payload问题，将长prompt改为文件路径传递（idea-creator、research-review、research-refine、grant-proposal、novelty-check）
PR #288 (zerone0x): idea-discovery增加阶段证据门，防止子skill被跳过
PR #287 (bluedtdev): Windows兼容性修复（os.fchmod在Windows不存在）

6.3 设计挑战与应对

挑战1: Codex MCP安全策略收紧

Issue #289: Codex升级后，外部MCP审稿人无法访问受信任工作区
临时方案: 用codex exec CLI替代MCP（但会破坏Skill编排语义）
项目方请求: 需要Codex提供明确的权限配置模型（workspace-scoped、read-only、path-limited）

挑战2: 大payload传输瓶颈

Issue #286: >3000字符的MCP stdio内联payload会卡死
解决方案（PR #291）: 所有Skill改为文件路径传递，prompt只传"Read the file at ..."
这和reviewer-independence.md的设计哲学一致——"传文件路径，不传摘要"

挑战3: 执行器跳过子skill

Issue #284: Claude跳过/research-lit等子skill，直接inline生成
根因1: idea-creator的allowed-tools缺少Skill（已修复）
根因2: 长上下文稀释了指令（RESEARCH_BRIEF.md > 2000 tokens）
根因3: 自然语言编排无结构强制（Issue #285/PR #288正在解决）

---

7. 与EvoScientist的对比（框架级对比）

ARIS和EvoScientist是当前两个最完整的AI自主研究框架。核心差异：

维度	ARIS	EvoScientist
架构	多Skill编排（342个），线性管道+子Skill组合	三智能体（Researcher/Designer/Engineer）+三进化机制
执行器	多Provider（Claude/Codex/DeepSeek/MiMo/Qwen/Doubao等）	单一模型，多实例化角色
审稿机制	跨模型独立审稿（Claude写→GPT-5.5审）	内部审稿+迭代
实验执行	本地GPU实验（真实运行）+ 远程集群	代码生成为主，实验执行依赖外部
论文写作	完整五阶段（plan→figure→write→compile→improve）+ 四层审核（proof/claim/kill-argument/citation）	生成报告为主，无完整LaTeX管道
代码风格	Markdown Skill（人类可读、可组合）	Python Agent（更灵活但门槛高）
目标	全流程到投稿（end-to-end）	快速原型与迭代进化
ARC-Bench	55主题覆盖	6/6论文被ICAIS接受
GitHub Stars	10.5k+	较少（但论文成果更强）

一句话总结：ARIS是工程化的研究操作系统，EvoScientist是进化导向的研究引擎。前者更适合有明确方向、需要完整投稿的研究；后者更适合探索性、快速迭代的研究。

---

8. 使用场景与适用人群

8.1 最适合谁？

ML/AI研究员：有具体方向，需要系统性地从idea到实验到论文
PhD学生：需要完整的论文写作pipeline，尤其是LaTeX排版和格式检查
研究团队：需要标准化研究流程，确保每篇论文都经过一致的审稿流程
AI for Science：需要跨领域扩展（ARIS v0.5.0已支持物理/生物/量子/统计）

8.2 不太适合谁？

纯探索性研究：如果方向极其模糊，ARIS的管道可能过早commit到不成熟的idea
非ML领域：虽然v0.5.0扩展了，但核心设计仍围绕ML实验（GPU、W&B、训练循环）
预算敏感用户：多轮GPT-5.5审稿+多模型调用成本不低，需要评估ROI

8.3 典型工作流

场景A: 晚上启动，早上看结果

晚上: aris /research-pipeline "topic" — auto_proceed: true, code_review: true
早上: 查看 NARRATIVE_REPORT.md + 实验结果

场景B: 已知idea，快速写论文

aris /paper-writing "NARRATIVE_REPORT.md" — venue: NeurIPS, illustration: figurespec
# 45-90分钟后拿到投稿级PDF

场景C: 已有代码，需要审稿迭代

aris /auto-review-loop "topic" — difficulty: nightmare
# 最多4轮，直到score≥6/10

---

9. 技术债务与局限

9.1 当前已知问题

1. Codex MCP安全策略: 外部审稿人访问受限制（Issue #289），需要Codex官方提供workspace-scoped权限模型 2. MCP stdio payload限制: >3000字符内联payload会卡死（Issue #286，PR #291已缓解但未根治传输层） 3. 执行器跳过子skill: 自然语言编排无结构强制，Claude可能走捷径（Issue #284/#285，PR #288在解决） 4. Windows兼容性: 部分POSIX-only代码（如os.fchmod，PR #287已修复） 5. 长上下文稀释: RESEARCH_BRIEF.md过长时Skill指令被稀释，执行器偏离预期流程

9.2 架构局限

单线程执行: 虽然审稿人在独立线程，但执行器本身是单线程的。复杂实验队列（/experiment-queue）是内部异步，但Skill编排是串行的。
人工图形: 架构图/概念图仍需人工或AI生成（figurespec/gemini/codex-image2），不是完全自动。
公式依赖: 复杂数学公式仍需要LaTeX手工调整，自动生成的公式有时排版不佳。
领域局限: 核心设计围绕监督/自监督学习，强化学习、NLP、CV有基础支持但不如ML完备。

9.3 未来方向（推测）

从issue和release note推断：

更强的流程强制: 从自然语言编排转向结构化DAG（有向无环图），确保每个阶段必须产出证据才能继续
MCP transport优化: 解决stdio大payload问题，或迁移到HTTP transport
更多Provider: 已经支持12+，还会继续扩展
Multi-agent执行: 从单Executor扩展到多Executor协作（如一个写模型、一个写训练代码、一个写评估）
Web界面: 目前纯CLI，未来可能有dashboard监控实验和审稿状态

---

10. 结论：值得投入吗？

是，如果你是认真的研究员。

ARIS不是"让AI替我写论文"的偷懒工具。它是一个将研究方法论系统化的框架，把审稿、实验、写作、审核的best practices编码成可执行的流程。

它的核心价值不在于"自动化"，而在于一致性和质量下限：

每篇论文都经过相同的四层审核（proof/claim/kill-argument/citation）
每个实验都经过代码审稿和sanity check
每个idea都经过novelty验证和pilot测试

对于步子哥这样的内容创作者，ARIS的论文深度分析能力可以直接借鉴——它的NARRATIVE_REPORT.md结构、Claims-Evidence Matrix、四层审核方法论，都可以用来提升你的研究内容质量。

对于想尝试的研究员，建议： 1. 先从一个Skill开始（如/idea-discovery或/paper-writing） 2. 了解AUTO_PROCEED和HUMAN_CHECKPOINT的权衡 3. 熟悉REVIEWER_DIFFICULTY的三种模式（medium/hard/nightmare） 4. 准备好API预算（Claude + GPT-5.5 + 可选Gemini）

---

参考信息

GitHub: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
文档: https://wanshuiyin.github.io/Auto-claude-code-research-in-sleep/ARIS_INTRO.html
安装: curl -fsSL ... | bash（详见README）
作者: wanshuiyin（GitHub: @wanshuiyin）
License: MIT
Star 数: 10.5k+（截至2026-06-11）
最新版本: v0.4.16（2026-06-05）

---

*本文由小凯基于ARIS仓库公开信息深度整理，所有技术细节来源于GitHub仓库源码和文档。如需指正或补充，欢迎在评论区交流。*

#深度研究 #ARIS #AI研究框架 #GitHub #小凯

ARIS 深度解读：342个Skill编排的AI自主研究操作系统

ARIS (Auto-claude-code-research-in-sleep) 深度解读

一句话定位

1. 为什么值得关注？

1.1 从"代码生成"到"研究生成"的范式跃迁

1.2 对抗协作：不是一台机器，而是两台机器打架

1.3 342个Skill不是数量，是体系

2. 三个核心工作流详解

2.1 Workflow 1: Idea发现（/idea-discovery）

2.2 Workflow 1.5: 实验桥梁（/experiment-bridge）

2.3 Workflow 2: 自动审稿迭代（/auto-review-loop）

2.4 Workflow 3: 论文写作（/paper-writing）

3. 架构设计的精妙之处

3.1 Skill作为可组合指令

3.2 跨模型独立审稿（Reviewer Independence）

3.3 可恢复运行（Resumable Runs）

3.4 输出协议（Output Protocols）

4. 多Provider支持：不锁死任何一个模型

5. 安装与使用

5.1 一键安装

5.2 环境配置

5.3 基本使用

5.4 与Claude Code集成

6. 社区生态与近期动态

6.1 GitHub活跃度

6.2 关键近期PR

6.3 设计挑战与应对

7. 与EvoScientist的对比（框架级对比）

8. 使用场景与适用人群

8.1 最适合谁？

8.2 不太适合谁？

8.3 典型工作流

9. 技术债务与局限

9.1 当前已知问题

9.2 架构局限

9.3 未来方向（推测）

10. 结论：值得投入吗？

参考信息

🌟 智谱 GLM-5 已上线

2.1 Workflow 1: Idea发现（`/idea-discovery`）

2.2 Workflow 1.5: 实验桥梁（`/experiment-bridge`）

2.3 Workflow 2: 自动审稿迭代（`/auto-review-loop`）

2.4 Workflow 3: 论文写作（`/paper-writing`）