ARIS 深度解读:342个Skill编排的AI自主研究操作系统
ARIS (Auto-claude-code-research-in-sleep) 深度解读
> GitHub: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep > Stars: 10.5k+(截至2026-06-11) > 最新版本: v0.4.16(2026-06-05) > Skill 数量: 342个可组合Markdown Skill > 核心架构: 跨模型对抗协作(Executor + Reviewer)
---
一句话定位
ARIS 是2026年目前最完整的AI自主研究框架,用342个可组合的Markdown Skill编排整个机器学习研究生命周期,通过Claude/Codex写代码、GPT-5.5审稿的跨模型对抗协作,实现从"找idea→做实验→改论文→投稿"的全流程自动化。
不是又一个AI助手,而是一个研究操作系统。
---
1. 为什么值得关注?
1.1 从"代码生成"到"研究生成"的范式跃迁
市面上绝大多数AI Coding工具(Cursor、Codex、Windsurf)解决的是实现问题,你把需求写清楚,它帮你写代码。但ARIS解决的是发现与验证问题,你给它一个方向,它帮你发现idea、验证novelty、跑实验、写论文。
这不是简单的功能叠加,而是研究方法论的系统化编码。342个Skill不是342个独立工具,是被精心编排的研究工序。
1.2 对抗协作:不是一台机器,而是两台机器打架
ARIS最核心的设计哲学是cross-model adversarial collaboration(跨模型对抗协作):
- Executor(Claude / Codex / Cursor / Antigravity / Copilot CLI):负责写代码、做实验、写论文
- Reviewer(GPT-5.5 via Codex MCP,或Claude / Gemini via
claude-review/gemini-reviewMCP):在独立线程中批评Executor的输出
1.3 342个Skill不是数量,是体系
ARIS的Skill不是松散的脚本集合,而是按研究阶段严格编排的:
| 阶段 | 核心Skill | 数量 |
|---|---|---|
| Idea发现 | research-lit、idea-creator、novelty-check、research-review | 80+ |
| 实验实施 | experiment-bridge、run-experiment、experiment-queue、ablation-planner | 60+ |
| 迭代改进 | auto-review-loop、training-check、hyper-opt | 40+ |
| 论文写作 | paper-plan、paper-write、paper-figure、paper-compile | 70+ |
| 审核与提交 | proof-checker、paper-claim-audit、citation-audit、kill-argument | 30+ |
| 工具与共享 | render-html、monitor-experiment、shared-references | 60+ |
/research-pipeline就串联了/idea-discovery → /experiment-bridge → /auto-review-loop → /paper-writing四个大工作流。---
2. 三个核心工作流详解
2.1 Workflow 1: Idea发现(/idea-discovery)
目标: 从模糊方向到可实施的、经过novelty验证的idea
内部链条:
/research-lit → /idea-creator → /novelty-check → /research-review
- /research-lit: 文献调研,通过arXiv API获取metadata(可选下载PDF),生成landscape map和gaps分析
- /idea-creator: 基于literature gap生成候选idea,通过pilot实验快速筛选(支持小数据集快速验证)
- /novelty-check: 对每个idea做严格的novelty验证,确认是否已被现有工作覆盖
- /research-review: GPT-5.5审稿,给idea打分、指出弱点、建议改进方向
idea-stage/IDEA_REPORT.md,包含ranked、validated、pilot-tested的idea列表。关键设计:
AUTO_PROCEED常量:false时会在Gate 1暂停,让用户选择哪个idea继续;true时自动选择top-ranked ideaARXIV_DOWNLOAD:控制是否下载PDF(默认只取metadata,省token)RESUMABLE:记录每阶段状态到.aris/runs/.json,崩溃后可恢复
2.2 Workflow 1.5: 实验桥梁(/experiment-bridge)
目标: 把idea变成跑起来的实验
全自动步骤:
1. 解析refine-logs/EXPERIMENT_PLAN.md(由idea-discovery生成)
2. 实现实验代码——扩展pilot到full scale,遵循现有代码规范
3. Cross-model code review(GPT-5.5 xhigh审稿)——在烧GPU之前抓逻辑bug、错误指标、ground-truth误用
4. Sanity check——先跑最小实验验证环境,失败自动调试(最多3次,带/codex:rescue fallback)
5. 部署全量实验——自动按job数量路由(≤5个→/run-experiment,≥10个或依赖复杂→/experiment-queue,带OOM重试、wave gating、crash-safe状态)
6. 收集结果——解析输出,更新EXPERIMENT_TRACKER.md,如果配置了W&B则运行/training-check
7. 如果主结果positive,自动规划消融实验(/ablation-planner)
输出:
refine-logs/EXPERIMENT_RESULTS.mdrefine-logs/EXPERIMENT_TRACKER.mdEXPERIMENT_LOG.md(当COMPACT=true时)
CODE_REVIEW:true时GPT-5.5会在实验前审稿代码BASE_REPO:可以在现有代码库上实现,而不是从零写- Queue routing是自动的,不需要手动选择
2.3 Workflow 2: 自动审稿迭代(/auto-review-loop)
目标: 让实验结果从"能跑"变成"能发表"
循环(最多4轮): 1. GPT-5.5 xhigh审稿——打分、指出弱点、建议最小修复 2. Claude Code实现修复——改代码、补实验、重新框架 3. 部署修复、收集新结果 4. 重新审稿 → 循环直到(score ≥ 6/10 AND verdict ∈ {ready, almost})或4轮耗尽
关键设计:
REVIEWER_DIFFICULTY:medium(标准MCP审稿)、hard(加审稿人记忆+辩论协议)、nightmare(GPT直接读repo+记忆+辩论)HUMAN_CHECKPOINT:true时每轮暂停让用户看分数并给修改指令- 非判断性心跳(non-judgmental heartbeat):允许外部定时任务检测卡住的阶段并推动,但永不自己决定"够了"——每个判断终止于跨模型陪审团
2.4 Workflow 3: 论文写作(/paper-writing)
目标: 从研究报告到投稿级PDF
五阶段管道:
/paper-plan → /paper-figure → /paper-write → /paper-compile → /auto-paper-improvement-loop
(outline) (plots) (LaTeX) (build PDF) (review & polish ×2)
Phase 1 — Paper Plan:
- 解析
NARRATIVE_REPORT.md,构建Claims-Evidence Matrix(每个claim映射到证据,每个实验支持一个claim) - 设计section结构(5-8 sections,根据venue类型)
- 规划figure/table placement
- GPT-5.5审稿plan完整性
- 数据图:matplotlib/seaborn从JSON/CSV生成
- 架构图:四种模式可选——
figurespec(JSON→SVG,本地免费)、gemini(AI生成,需GEMINI_API_KEY)、codex-image2(Codex原生图桥,用ChatGPT额度)、mermaid(流程图,免费)
- 逐section写,插入figure/table引用
- 自动构建
references.bib - De-AI polish(移除"delve"、"pivotal"、"landscape"等AI味词汇)
- GPT-5.5逐section审稿
latexmk -pdf多遍编译- 自动修复常见错误(缺失包、未定义引用、BibTeX语法)
- 最多3次编译尝试
- 后编译检查:未定义引用、页数、字体嵌入
- GPT-5.5 xhigh验证所有证明步骤
- 检查逻辑gap、量词错误、缺失domination条件
- 生成
PROOF_AUDIT.md
- 零上下文审稿人对比论文中每个数字和原始结果文件
- 抓rounding inflation、best-seed cherry-pick、config mismatch
- Round 1: GPT-5.5审稿全paper → Claude修 → 重编译 → 保存
main_round1.pdf - Round 2: GPT-5.5带着对话上下文重新审稿 → Claude修 → 保存
main_round2.pdf - 典型改进:修复assumption-model mismatch、软化overclaim、补缺失解释、强化limitation section
- 重新运行
/paper-claim-audit,确保improvement loop没有引入数字错误
- 测试论文是否能survive worst rejection paragraph from senior area chair
- 不编辑论文,只写
KILL_ARGUMENT.{md,json}
- 三个维度验证每个
\cite{...}:存在性、元数据正确性、上下文适当性 - 抓"真实论文被用来支持它没建立的claim"(wrong-context citations)
assurance级别:draft(默认,不强制审核)或submission(强制过全部门槛)- 运行
verify_paper_audits.sh,exit 0才允许生成Final Report - 可注册Stop hook物理阻止红色状态提交
paper/main.pdf— 最终论文paper/main_round0_original.pdf— 改进前基线paper/main_round1.pdf— 第一轮改进后paper/main_round2.pdf— 第二轮改进后paper/PAPER_IMPROVEMENT_LOG.md— 完整审稿日志- 各种audit文件(proof/claim/citation/kill-argument)
---
3. 架构设计的精妙之处
3.1 Skill作为可组合指令
ARIS的每个Skill是一个Markdown文件,不是Python脚本。这有几个深层好处:
1. 人类可读——研究员可以直接打开.md文件理解流程,不需要读代码
2. 模型原生理解——LLM对Markdown的解析能力远强于对Python AST的理解
3. 可组合性——/research-pipeline通过Skill工具调用子Skill,就像人类研究员说"去跑文献调研"一样自然
4. 版本友好——Git diff对Markdown的展示远优于对Python代码的展示
3.2 跨模型独立审稿(Reviewer Independence)
这是ARIS最区别于其他AI研究工具的设计。
核心规则(来自shared-references/reviewer-independence.md):
- 审稿人必须在独立线程中运行,不能看到执行器的思考过程
- 审稿人只能拿到最终产物(代码、论文、实验结果)
- 执行器不能看到审稿人的内部推理,只能拿到最终评分和建议
- 作者不知道审稿人是谁(Reviewer匿名)
- 审稿人不知道作者怎么 struggle 的(只看最终产物)
- 双方都只能基于公开信息交流(通过rebuttal/response)
- 通过Codex MCP(
mcp__codex__codex)调用GPT-5.5,每次审稿在新线程中启动 - 绝不用
codex-reply传递历史上下文(那会泄露执行器状态) - 审稿指令中禁止包含执行器的路径、工具调用痕迹、中间思考
3.3 可恢复运行(Resumable Runs)
长管道必然崩溃。ARIS的解决方案是run_state.py:
- 每个阶段记录
{stage, status, artifact_path, trace_or_thread_id} - 状态分
done(执行器写完)和accepted(跨模型门/确定性验证器通过) - 恢复时,
done但未accepted的阶段会被重新审计 - 文件遵循
{run_id}.json命名,放在.aris/runs/
3.4 输出协议(Output Protocols)
所有Skill共享三套输出协议:
1. Output Versioning Protocol — 先写时间戳文件,再复制到固定名。防止覆盖冲突。
2. Output Manifest Protocol — 每个输出都记录到MANIFEST.md。审计时可追溯全部产物。
3. Output Language Protocol — 尊重项目语言设置(中文/英文)。
---
4. 多Provider支持:不锁死任何一个模型
ARIS v0.4.16支持的Provider列表(从Claude-only到百花齐放):
| Provider | 角色 | 接入方式 |
|---|---|---|
| Claude (Opus/Sonnet/Haiku) | 执行器 | 原生Anthropic API |
| Codex (GPT-5.5) | 执行器/审稿人 | OpenAI API / Codex CLI / MCP |
| Cursor | 执行器 | Cursor API |
| Antigravity | 执行器 | 专用接口 |
| Copilot CLI | 执行器 | GitHub Copilot |
| GPT-5.5 | 审稿人 | Codex MCP / Codex CLI |
| Gemini | 审稿人 | gemini-review MCP |
| DeepSeek V4 Pro | 执行器 | 新增(v0.4.5-0.4.16) |
| Xiaomi MiMo | 执行器 | 新增 |
| Qwen 3.6 | 执行器 | 新增 |
| Doubao | 执行器 | 新增 |
| DashScope | 执行器 | 新增 |
| Custom OpenAI-compatible | 执行器 | 通用兼容接口 |
- 新Provider支持(上表)
- 推理+tool-use一等公民支持
- 流式+MCP可靠性修复(关闭#228/#151/#172/#249)
- REPL历史+Ctrl+R搜索
- 结果导出
- 热力图交互式面板
- 对实验性provider的Markdown警告
- 数据目录迁移(兼容层)
- 缓冲区模式
- 本地调试日志
- 多provider并发服务层优化
5. 安装与使用
5.1 一键安装
curl -fsSL https://raw.githubusercontent.com/wanshuiyin/Auto-claude-code-research-in-sleep/main/tools/install_aris.sh | bash
安装脚本会自动:
1. 克隆仓库到~/.aris/
2. 创建符号链接到~/.local/bin/aris
3. 设置ARIS_REPO环境变量
4. 安装依赖(Python包、Node.js等)
5. 配置MCP服务器(Codex、Gemini、Claude Review)
5.2 环境配置
.env文件配置:
ANTHROPIC_API_KEY=sk-ant-xxx # Claude执行器
OPENAI_API_KEY=sk-xxx # GPT-5.5审稿人 / Codex
GEMINI_API_KEY=xxx # Gemini审稿人(可选)
WANDB_API_KEY=xxx # W&B实验追踪(可选)
5.3 基本使用
# 进入项目目录
cd my-research-project
# 运行单个Skill
aris /idea-discovery "efficient attention mechanisms for long sequences"
# 运行全流程(可恢复)
aris /research-pipeline "efficient attention mechanisms" — auto_proceed: true, code_review: true
# 恢复之前的运行
aris /research-pipeline — resume 20260610-attention-xyz
# 写论文(从研究报告)
aris /paper-writing "NARRATIVE_REPORT.md" — venue: ICLR
# 列出所有可用Skill
aris --list-skills
# 查看Skill详情
aris /help /idea-discovery
5.4 与Claude Code集成
ARIS设计为Claude Code的扩展。你可以在Claude Code中直接调用:
Claude, please run /research-pipeline on "quantum error correction with neural decoders"
Claude Code会读取ARIS的Skill文件,按指令执行,并使用MCP工具调用外部审稿人。
---
6. 社区生态与近期动态
6.1 GitHub活跃度
- Stars: 10.5k+(增长稳定)
- Forks: 1.2k+
- Issues: 293个(含PR),最近issue集中在:
- #293: paper-plan输出目录规范化(
.aris/outputs/) - #292: Anthropic API 401错误(中转站令牌问题)
- #291: 大payload Codex MCP优化(文件bundle替代内联)
- #290: v0.4.16 PATH问题
- #289: 外部MCP审稿人被Codex安全策略阻断(重要设计问题)
- #288: idea-discovery流程防跳过强化
- #287: Windows兼容性修复(gemini-review fchmod)
- #286: Codex MCP大payload stdio传输卡死(已解决)
- #285: idea-discovery阶段证据门(防静默降级)
- #284: idea-creator跳过子skill调用(allowed-tools缺失Skill,已修复)
6.2 关键近期PR
- PR #293 (deadpool66): paper-plan输出到
.aris/outputs/而非项目根目录,保持仓库整洁 - PR #291 (XiaojuCH): 针对Codex MCP大payload问题,将长prompt改为文件路径传递(
idea-creator、research-review、research-refine、grant-proposal、novelty-check) - PR #288 (zerone0x): idea-discovery增加阶段证据门,防止子skill被跳过
- PR #287 (bluedtdev): Windows兼容性修复(
os.fchmod在Windows不存在)
6.3 设计挑战与应对
挑战1: Codex MCP安全策略收紧
- Issue #289: Codex升级后,外部MCP审稿人无法访问受信任工作区
- 临时方案: 用
codex execCLI替代MCP(但会破坏Skill编排语义) - 项目方请求: 需要Codex提供明确的权限配置模型(workspace-scoped、read-only、path-limited)
- Issue #286: >3000字符的MCP stdio内联payload会卡死
- 解决方案(PR #291): 所有Skill改为文件路径传递,prompt只传"Read the file at ..."
- 这和
reviewer-independence.md的设计哲学一致——"传文件路径,不传摘要"
- Issue #284: Claude跳过
/research-lit等子skill,直接inline生成 - 根因1:
idea-creator的allowed-tools缺少Skill(已修复) - 根因2: 长上下文稀释了指令(
RESEARCH_BRIEF.md> 2000 tokens) - 根因3: 自然语言编排无结构强制(Issue #285/PR #288正在解决)
7. 与EvoScientist的对比(框架级对比)
ARIS和EvoScientist是当前两个最完整的AI自主研究框架。核心差异:
| 维度 | ARIS | EvoScientist |
|---|---|---|
| 架构 | 多Skill编排(342个),线性管道+子Skill组合 | 三智能体(Researcher/Designer/Engineer)+三进化机制 |
| 执行器 | 多Provider(Claude/Codex/DeepSeek/MiMo/Qwen/Doubao等) | 单一模型,多实例化角色 |
| 审稿机制 | 跨模型独立审稿(Claude写→GPT-5.5审) | 内部审稿+迭代 |
| 实验执行 | 本地GPU实验(真实运行)+ 远程集群 | 代码生成为主,实验执行依赖外部 |
| 论文写作 | 完整五阶段(plan→figure→write→compile→improve)+ 四层审核(proof/claim/kill-argument/citation) | 生成报告为主,无完整LaTeX管道 |
| 代码风格 | Markdown Skill(人类可读、可组合) | Python Agent(更灵活但门槛高) |
| 目标 | 全流程到投稿(end-to-end) | 快速原型与迭代进化 |
| ARC-Bench | 55主题覆盖 | 6/6论文被ICAIS接受 |
| GitHub Stars | 10.5k+ | 较少(但论文成果更强) |
---
8. 使用场景与适用人群
8.1 最适合谁?
- ML/AI研究员:有具体方向,需要系统性地从idea到实验到论文
- PhD学生:需要完整的论文写作pipeline,尤其是LaTeX排版和格式检查
- 研究团队:需要标准化研究流程,确保每篇论文都经过一致的审稿流程
- AI for Science:需要跨领域扩展(ARIS v0.5.0已支持物理/生物/量子/统计)
8.2 不太适合谁?
- 纯探索性研究:如果方向极其模糊,ARIS的管道可能过早commit到不成熟的idea
- 非ML领域:虽然v0.5.0扩展了,但核心设计仍围绕ML实验(GPU、W&B、训练循环)
- 预算敏感用户:多轮GPT-5.5审稿+多模型调用成本不低,需要评估ROI
8.3 典型工作流
场景A: 晚上启动,早上看结果
晚上: aris /research-pipeline "topic" — auto_proceed: true, code_review: true
早上: 查看 NARRATIVE_REPORT.md + 实验结果
场景B: 已知idea,快速写论文
aris /paper-writing "NARRATIVE_REPORT.md" — venue: NeurIPS, illustration: figurespec
# 45-90分钟后拿到投稿级PDF
场景C: 已有代码,需要审稿迭代
aris /auto-review-loop "topic" — difficulty: nightmare
# 最多4轮,直到score≥6/10
---
9. 技术债务与局限
9.1 当前已知问题
1. Codex MCP安全策略: 外部审稿人访问受限制(Issue #289),需要Codex官方提供workspace-scoped权限模型
2. MCP stdio payload限制: >3000字符内联payload会卡死(Issue #286,PR #291已缓解但未根治传输层)
3. 执行器跳过子skill: 自然语言编排无结构强制,Claude可能走捷径(Issue #284/#285,PR #288在解决)
4. Windows兼容性: 部分POSIX-only代码(如os.fchmod,PR #287已修复)
5. 长上下文稀释: RESEARCH_BRIEF.md过长时Skill指令被稀释,执行器偏离预期流程
9.2 架构局限
- 单线程执行: 虽然审稿人在独立线程,但执行器本身是单线程的。复杂实验队列(
/experiment-queue)是内部异步,但Skill编排是串行的。 - 人工图形: 架构图/概念图仍需人工或AI生成(
figurespec/gemini/codex-image2),不是完全自动。 - 公式依赖: 复杂数学公式仍需要LaTeX手工调整,自动生成的公式有时排版不佳。
- 领域局限: 核心设计围绕监督/自监督学习,强化学习、NLP、CV有基础支持但不如ML完备。
9.3 未来方向(推测)
从issue和release note推断:
- 更强的流程强制: 从自然语言编排转向结构化DAG(有向无环图),确保每个阶段必须产出证据才能继续
- MCP transport优化: 解决stdio大payload问题,或迁移到HTTP transport
- 更多Provider: 已经支持12+,还会继续扩展
- Multi-agent执行: 从单Executor扩展到多Executor协作(如一个写模型、一个写训练代码、一个写评估)
- Web界面: 目前纯CLI,未来可能有dashboard监控实验和审稿状态
10. 结论:值得投入吗?
是,如果你是认真的研究员。
ARIS不是"让AI替我写论文"的偷懒工具。它是一个将研究方法论系统化的框架,把审稿、实验、写作、审核的best practices编码成可执行的流程。
它的核心价值不在于"自动化",而在于一致性和质量下限:
- 每篇论文都经过相同的四层审核(proof/claim/kill-argument/citation)
- 每个实验都经过代码审稿和sanity check
- 每个idea都经过novelty验证和pilot测试
NARRATIVE_REPORT.md结构、Claims-Evidence Matrix、四层审核方法论,都可以用来提升你的研究内容质量。对于想尝试的研究员,建议:
1. 先从一个Skill开始(如/idea-discovery或/paper-writing)
2. 了解AUTO_PROCEED和HUMAN_CHECKPOINT的权衡
3. 熟悉REVIEWER_DIFFICULTY的三种模式(medium/hard/nightmare)
4. 准备好API预算(Claude + GPT-5.5 + 可选Gemini)
---
参考信息
- GitHub: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
- 文档: https://wanshuiyin.github.io/Auto-claude-code-research-in-sleep/ARIS_INTRO.html
- 安装:
curl -fsSL ... | bash(详见README) - 作者: wanshuiyin(GitHub: @wanshuiyin)
- License: MIT
- Star 数: 10.5k+(截至2026-06-11)
- 最新版本: v0.4.16(2026-06-05)
*本文由小凯基于ARIS仓库公开信息深度整理,所有技术细节来源于GitHub仓库源码和文档。如需指正或补充,欢迎在评论区交流。*
#深度研究 #ARIS #AI研究框架 #GitHub #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens