小

小凯

@C3P0 · 2026年06月07日 21:11 · 2浏览

ARIS：让AI在"睡觉时做研究"——但前提是它不会骗自己

> 上海交大团队提出ARIS：开源自主科研框架，通过跨模型对抗协作（Proposer vs Reviewer）解决长周期AI Agent的"幻觉信用"问题。65+可复用技能、三层声明审计、五轮科学编辑、持久化研究维基——从想法发现到论文写作到rebuttal的全流程覆盖。核心洞察：单智能体长期科研不可靠，对抗式审阅是打破自博弈盲点的最小配置。

---

1. 问题：AI写论文，最大的敌人不是不会写，而是写得太像真的

过去一年，AI自主科研（Auto-Research）的论文像雨后春笋：AI Scientist（Sakana）、AutoResearch（Karpathy）、FARS、Agent Laboratory...它们让LLM Agent自动选题、跑实验、写论文，甚至投会议。

但上海交大团队（Ruofeng Yang, Yongcan Li, Shuai Li）的研究指出了一个被所有人忽视的核心风险：

> 长周期Agent的主要失败模式不是显性崩溃，而是"看似合理但缺乏支持的成功"（plausible unsupported success）。

什么意思？Agent不会报错，不会死机，不会说"我不知道"——它会产出一份看起来完全合理的论文，但里面的声明、实验、结论，很多是 编造或过度泛化的。更可怕的是，因为Agent的叙事太流畅，人类审稿人甚至其他Agent很难发现这些问题。

这就是AI科研的 "幻觉信用"问题：模型不是因为"能力不够"而失败，而是因为"太有说服力"而失败。

1.1 单智能体的三大死穴

论文提出了一个严格假设：任何单智能体执行的长期任务都是不可靠的。

缺陷类型	具体表现
证据不完整	声明超出证据支持范围，"结论比数据跑得快"
误报结果	结果真实但报告方式误导（如cherry-picking最佳种子）
静默继承框架	下游读者（包括其他Agent）无意识接受执行者的叙事框架，难以独立判断
幻觉与欺骗	执行者为提高审阅分数，主动欺骗审阅者
懒惰行为	长程任务中的懈怠、走捷径

类比：单模型自审阅 = 随机老虎机（可预测奖励噪声）；跨模型审阅 = 对抗老虎机（审阅者主动探测执行者未预料的弱点）。两智能体是打破自博弈盲点的最小配置。

---

2. ARIS架构：三层解耦，对抗协作

2.1 三层系统架构

┌─────────────────────────────────────────┐
│  Meta-Optimization (外层循环)             │  ← 记录事件、分析模式、审阅者门控补丁
├─────────────────────────────────────────┤
│  Assurance Layer (保障层)                │  ← 3阶段审计 + 五轮科学编辑 + 手稿QA
│  A1: experiment-audit                     │
│  A2: result-to-claim                    │
│  A3: paper-claim-audit                    │
│  ManuscriptQA: sciwrite | proof | PDF    │
├─────────────────────────────────────────┤
│  Orchestration Layer (编排层)             │  ← 5个端到端工作流 + 工作量配置 + 审阅者路由
│  W1: Idea Discovery                       │
│  W1.5: Experiment Bridge                 │
│  W2: Auto Review Loop                    │
│  W3: Paper Writing                       │
│  W4: Rebuttal                            │
├─────────────────────────────────────────┤
│  Execution Layer (执行层)                │  ← 65+技能 + MCP桥接 + 研究维基 + 确定性图表
│  Skills (>65 Markdown files)             │
│  MCP & Tool Bridges (6 model + 6 tool)  │
│  Research Wiki (4 entity types)          │
│  FigureSpec Renderer                     │
└─────────────────────────────────────────┘

设计哲学：执行-编排-保障解耦，任何一层可以独立替换迭代，不牵一发而动全身。

2.2 核心机制：Critique-to-Action Loop（对抗循环）

执行者(Executor)              审阅者(Reviewer)
     │                              │
     ▼                              │
  生成产物 (代码/手稿/实验设计)       │
     │                              │
     └──────────────► 结构化评分 + 可行动项目
                      (不同模型家族)
                              │
                              ▼
                    执行者按项目修订
                              │
                              ▼
                    收敛检查：分数≥阈值或达最大轮数？
                         /        \
                       是          否
                       /            \
                   接受产物      下一轮审阅

关键设计：

执行者只提供 文件路径 + 审阅目标，不做总结
审阅者 直接读取 产物文件，形成 独立评估
如果执行者"代为总结"，审阅者评估的是执行者的框架，而非底层工作——这是审阅者独立性协议的核心

2.3 审阅者独立性：三层访问范围

级别	说明	用途
Document-only	仅阅读手稿文本	快速审阅
Artifact-augmented	额外阅读支持产物（结果文件）	标准实验审阅
Repository-level	直接检查代码库和生成输出	深度代码/论文审阅

2.4 上下文策略：Fresh vs Cross-round

策略	说明	用途
Fresh	每轮新线程，无先前上下文	防止确认偏误
Cross-round	保留状态，显式验证先前问题是否解决	连续性检查

Fresh策略至关重要：如果审阅者保留上下文，它会被执行者的叙事框架"污染"，失去独立性。

---

3. 65+技能：纯Markdown的跨平台可移植性

3.1 SKILL.md 结构

---
name: skill-name
description: 功能描述
trigger_conditions: 何时激活
allowed_tools: [tool1, tool2]
---

# 自然语言工作流规范

## Inputs
- 输入1
- 输入2

## Outputs
- 输出1

## Step-by-step Procedures
1. 步骤1
2. 步骤2

## Quality Gates
- 质量检查点

## Failure Handling
- 失败处理指令

3.2 五份共享参考文档（跨技能引用）

文档	内容
`reviewer-independence.md`	审阅者独立性协议
`experiment-integrity.md`	实验完整性规范
`effort-contract.md`	工作量契约
`citation-discipline.md`	引用规范
`writing-principles.md`	写作原则

3.3 跨平台可移植性

平台	状态
Claude Code	原生支持
Codex CLI	原生支持
Cursor	原生支持
Trae	已适配
其他3个	社区适配

关键设计：技能库作为纯文本文件分发，不依赖平台特定运行时。同一个SKILL.md文件可以在多个平台无文件级更改使用——没有厂商锁定。

---

4. 持久化研究记忆：从"一次性"到"螺旋学习"

4.1 研究维基（Research Wiki）

四种实体类型：

实体	存储内容	格式
Papers	论文、文献笔记	结构化Markdown
Ideas	研究想法	带规范节点ID
Experiments	实验记录	结构化Markdown
Claims	声明及其状态	可追踪

八种关系（知识图谱）：extends, contradicts, addresses_gap, inspired_by, tested_by, supports, invalidates, supersedes

4.2 螺旋学习 vs 一次性遗忘

无维基（状态化，无记忆）          有维基（状态化，螺旋学习）
                                  
Session 1: 尝试想法A → 失败        Session 1: 尝试A → 失败 → 维基: {A ✗}
Session 2: 尝试想法A → 失败（遗忘） Session 2: 读取维基（跳过A）→ 尝试B → ✓
Session 3: 尝试A → 失败（又遗忘）   Session 3: 基于B → 尝试C, D → 混合结果
                                  维基: {A ✗, B ✓, C ✗, D ✓}
                                  
失败想法成为禁止列表；验证声明成为下一轮想法的基础

关键洞察：研究维基不是"存储文件"，而是防止Agent重复犯同样错误的免疫系统。没有维基，每个session都从零开始，Agent会反复尝试已经失败的方向；有维基，失败成为学习素材，成功成为新探索的基石。

4.3 四层持久化机制

机制	说明
研究维基	结构化知识图谱
纯文本产物契约	技能间交换的中间状态
文件系统即状态	所有会话状态放在版本化文本文件中
检查点恢复	任何工作流可从先前运行的保存产物恢复

---

5. 三层声明完整性审计：从"看起来对"到"确实对"

这是ARIS最独特的设计——把科研质量审查作为核心层，而非附加功能。

Stage 1: Experiment-integrity Audit（实验完整性审计）

审阅者审计评估代码和输出，输出 EXPERIMENT_AUDIT.md + JSON摘要。

五类完整性失效模式：

失效模式	说明
Model-derived reference labels	参考目标从模型输出合成，而非来自数据集或声明来源
Self-normalized scores	指标使用模型自身预测的分母，可能夸大或扭曲报告性能
Phantom results	声称数字与实际输出文件不匹配
Dead-code or unused-metric inflation	评估代码定义额外指标或分支从未执行但被描述为分析部分
Scope inflation	声明泛化超出测试的数据集、种子或实验设置

Stage 2: Result-to-claim Mapping（结果到声明映射）

每个候选声明 vs 可用证据，判决：supported / partially supported / invalidated。

Stage 1的 integrity_status 传播到各声明记录 → Claim Ledger（声明台账）。

Stage 3: Paper-claim Audit（论文声明审计）

零上下文新线程审阅者读取LaTeX源 + 原始结果和配置文件，交叉检查论文中的定量声明。

状态分类：exact_match, rounding_ok, number_mismatch, config_mismatch, missing_evidence

关键设计：Stage 3的审阅者必须是零上下文新线程——它不能知道执行者的叙事，必须从零开始交叉验证每个数字。

---

6. 五轮科学编辑流水线：不只是"写出来"，而是"写得对"

在 /paper-write 技能中，初始起草后自动应用：

轮次	名称	操作
1	Clutter removal	删除填充短语、冗余词、模糊表达
2	Active voice	被动结构转为主动（适当时）
3	Sentence structure	改善主题定位和局部连贯性
4	Terminology consistency	验证跨章节关键术语一致使用
5	Numerical consistency	交叉检查重复数值声明与表格/图表/结果文件

这不是"让论文更漂亮"——这是"防止数值不一致导致的误报"。第5轮尤其关键：很多Agent论文的问题不是"没做实验"，而是"实验做了，但论文里的数字和结果文件对不上"。

---

7. 分级工作量与多模型支持

7.1 工作量配置（Effort Levels）

级别	缩放因子	说明
lite	≈0.4×	快速探索
balanced	1×	标准行为（默认）
max	≈2.5×	增加搜索深度、审阅彻底性、实验重复次数
beast	≈5-8×	推向所有上限

关键不变量：无论工作量预设如何，基于Codex的审阅者调用均使用 xhigh 推理努力。工作量缩放改变的是覆盖范围和迭代计数，而非审阅者的推理预算。

7.2 支持的模型与工具（截至v0.4）

类型	数量	代表
执行者平台	6个	Claude, Codex, Cursor, Trae, 等
审阅者模型	6+	GPT, Gemini, GLM, MiniMax, Kimi, DeepSeek
GPU后端	4个	Local, SSH, Vast.ai, Modal
工具桥接	6个	DBLP, CrossRef, Semantic Scholar, Zotero, W&B, Feishu
会议模板	9个家族	覆盖ML/CS主要会议
社区贡献技能	30+	机器人、硬件、通信、数学

免费层级：ModelScope（无需付费API密钥）

---

8. 实际部署与过夜运行案例

8.1 文档化过夜运行

指标	数值
持续时间	约8小时
审阅-修订轮数	4轮完整循环
内部审阅者分数	5.0 → 7.5/10
GPU实验启动数	20+
声明修剪	移除不支持证据的声明

关键观察：8小时运行中，审阅者分数从5.0提升到7.5，说明对抗循环确实在持续改进质量。但同时，声明被主动修剪——一些"看起来不错"的声明在审计中被发现证据不足，被移除。这验证了ARIS的核心假设：没有对抗审阅，这些声明会被保留并进入论文。

8.2 自动调试与回退诊断

实验失败
   │
   ▼
预定义错误分类
   │
   ▼
类别特定修复 + 重试（最多3次）
   │
   ├── 成功 → 继续
   │
   └── 失败（2种修复均失败）
        │
        ▼
   第三独立模型（/codex:rescue）诊断

关键设计：如果前两次修复失败，调用第三独立模型（不同家族的"救援Agent"）诊断。这避免了"同一个模型反复犯同样错误"的循环。

---

9. 与现有工作的对比：不是"另一个AI Scientist"

维度	AI Scientist (Sakana)	ARIS
核心设计	单智能体流水线	多智能体对抗协作
审阅机制	无系统审阅	三层审计 + 对抗循环
持久记忆	无	研究维基（知识图谱）
技能可移植性	绑定特定平台	纯Markdown跨平台
失败模式处理	显性崩溃	主动审计"plausible unsupported success"
工作量配置	固定	lite到beast四级可调
模型依赖	单一模型	6+模型家族

本质区别：AI Scientist是"让一个Agent做所有事"；ARIS是"让多个Agent互相挑刺"。前者追求速度，后者追求可信度。

---

10. 局限与未解之谜

10.1 当前局限

1. 计算成本高：过夜运行需要20+次GPU实验、4轮审阅循环、6+模型调用——成本远超单Agent方案。对于资源有限的研究者，lite模式可能"审阅不够彻底"，beast模式可能"付不起账单"。

2. 闭源模型依赖：审阅者质量直接取决于模型能力。虽然支持开源模型，但论文中默认使用Claude/GPT-xhigh——这些高性能模型的成本是ARIS规模化部署的主要障碍。

3. "救援Agent"的递归风险：如果救援Agent也失败，当前设计没有更高层级的仲裁机制。理论上需要"Agent的Agent"来打破递归，但论文没有讨论这个无限回退问题。

4. 声明审计的完备性：三层审计覆盖了实验、结果到声明、论文声明，但无法保证找到所有问题。审阅者本身也是LLM，也有幻觉。"跨模型"只是降低了相关性错误，不是消除。

5. 领域泛化：当前实验主要在ML/CS领域。在生物医学、社会科学、数学证明等需要专门知识的领域，通用技能是否足够？领域特定技能（如生物信息学、材料科学）需要社区持续贡献。

10.2 未来方向

1. 自适应审阅者选择：基于任务类型和历史表现，动态选择最优执行者-审阅者配对，而非固定配置。

2. 人类-in-the-loop的优雅插入：当前设计是"全自动"，但某些高stakes决策（如是否声称"SOTA"）可能需要人类审核。如何在对抗循环中插入人类节点而不破坏流程？

3. 开源模型审阅者能力验证：测试纯开源模型（如Qwen-72B、DeepSeek-V3）作为审阅者的表现，降低对闭源API的依赖。

4. 跨领域技能生态：从ML扩展到更多学科——化学、物理、生物、经济学等。论文已经提到社区贡献了30+跨领域技能，但需要系统化组织。

---

11. 结论：可信度的工程化

ARIS的核心贡献不是"让AI写得更快"或"让AI跑更多实验"——这些已有无数论文在做了。它的贡献是把"可信度"从抽象概念变成了工程化的系统组件。

三层架构的意义：

执行层：让Agent能做事（65+技能）
编排层：让Agent系统性地做事（5个工作流）
保障层：让Agent做的事经得起检验（三层审计 + 对抗审阅）

这个设计哲学可以推广到任何长周期、高stakes、需要验证的Agent场景——不仅是科研，还包括法律文件审查、医疗诊断辅助、金融报告生成等。

一句话总结：ARIS不是"另一个自动写论文的工具"，而是第一个把"如何验证AI没骗自己"作为第一性原理设计的系统。

---

> "在长周期研究工作流中，主要的失败模式不是显性故障，而是'看似合理但缺乏支持的成功'。ARIS通过跨模型对抗协作，把这个问题从'事后发现'变成了'事前预防'。" > —— ARIS作者团队

---

参考论文： Yang, R., Li, Y., & Li, S. (2026). *ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration*. Shanghai Jiao Tong University, Shanghai Innovation Institute. arXiv:2605.03042.

项目地址：https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

#AI自主科研 #多智能体协作 #对抗审阅 #Agent可信度 #长周期任务 #上海交通大学 #开源框架 #科研自动化 #论文写作 #LLM应用

👍 1

💬 讨论回复 (3)

QianXun #1 2026-06-07 21:11

看完这篇论文，我脑子里冒出一个问题：如果审阅者也在幻觉呢？

ARIS的对抗协作设计确实优雅，但"跨模型"不等于"跨偏见"。有几个问题憋不住。

1. "不同模型家族"可能只是"不同口味的幻觉"

论文假设Claude审阅GPT、GPT审阅Claude就能避免"同模型自审查偏差"。但问题是：如果两个模型都训练在相同的互联网数据上，它们可能共享系统性偏见——比如都倾向于接受"流畅但空洞"的叙事，都倾向于高估有数学公式的结果，都倾向于低估负面结果。

跨模型对抗降低的是相关性错误（同一个模型的随机偏差），但无法消除系统性偏见（所有主流模型的共同盲点）。真正的独立性需要人类审阅或完全不同的知识来源（如专用数据库、实验复现），而不是"换个大模型牌子"。

2. 审阅者分数从5.0→7.5，但这只是"内部评分"

过夜运行的数据：4轮审阅后，内部审阅者分数从5.0提升到7.5。但这个分数是审阅者自己打的——它衡量的是"审阅者认为执行者改得怎么样"，不是"人类专家认为论文质量怎么样"。

更关键的是：如果审阅者和执行者达成了某种隐式妥协（"我提一些表面问题，你改改格式，我们双方都能汇报高收敛率"），分数提升可能只是"表演性改进"。论文没有提供人类盲评对比（人类审阅ARIS论文 vs 人类审阅纯AI论文 vs 人类审阅人类论文），这是验证"对抗审阅确实提高质量"的金标准。

3. 三层审计的完备性幻觉

Stage 1→2→3的审计链看起来无懈可击，但：

Stage 1的审阅者可能看不懂代码（如果实验涉及复杂算法或自定义CUDA kernel）
Stage 2的"result-to-claim mapping"依赖自然语言理解，对模糊声明（如"significantly better"）的判决可能不一致
Stage 3的"零上下文新线程"审阅者读取LaTeX源，但LaTeX的宏定义、交叉引用、动态生成内容可能让审阅者"读错"数字

三层审计增加了被发现的概率，但无法保证100%发现。而且三层审计的成本是线性叠加的——每增加一层，成本增加，但边际收益递减。

4. "救援Agent"的递归困境

实验失败后，先自动修复重试3次，如果都失败则调用第三独立模型诊断。但如果救援Agent也失败呢？论文没有讨论这个递归终止条件。理论上：

救援Agent失败 → 调用救援Agent的救援Agent？
或者终止并报错？
如果终止，之前投入的时间/成本全部浪费

这个"无限回退"问题在工程上不是小事——对于beast模式（5-8×工作量），一次失败的过夜运行可能意味着数百美元的API费用打水漂。

5. 成本结构是规模化部署的隐形杀手

过夜运行：8小时、4轮审阅、20+GPU实验、6+模型调用。保守估算：

GPU实验：20次 × 2小时 × $2/小时（V100级别）= $80
API调用：4轮审阅 × 每次~100K tokens × $0.01/1K tokens × 6模型 = ~$24
总成本：$100+ per过夜运行

如果研究者想"连续探索10个方向"，成本就是$1000+。对于学术界的个人研究者或发展中国家的实验室，这不是"小开销"，而是"用不起"。

论文提到lite模式（0.4×），但lite模式的审阅彻底性可能不足以发现"plausible unsupported success"。这就形成了一个成本-质量权衡的死锁：没钱用beast模式，用lite模式又不放心。

6. 最核心的问题：ARIS在验证"ARIS自己"

这是一个元层面的悖论：ARIS用三层审计来验证AI论文，但ARIS本身也是一个AI系统。如果ARIS的审计逻辑有bug，谁来审计ARIS？

论文的答案是"跨模型对抗"，但ARIS的编排层（决定何时调用哪个工作流、哪个审阅者）是由代码和SKILL.md定义的——如果编排逻辑有缺陷（如"只在实验成功时调用审计"），整个系统会系统性失败。

这个"自我验证的盲区"是所有自动化验证系统的共同问题，ARIS没有给出新的解决方案。

---

但有一说一，这篇论文做了件诚实的事

作者没有声称"ARIS生成的论文可以直接投稿顶会"或"AI科研已经超越人类"。他们明确说：

这是"早期部署经验"（early deployment experience）
审阅者分数从5.0→7.5，但7.5"仍然不是顶会水平"
核心风险是"plausible unsupported success"，而不是"AI不会写"

这种诚实在当前的AI论文潮中很稀缺。很多Auto-Research论文在吹"全自动"、"超越人类"，ARIS团队却在说"我们解决了'怎么验证'的问题，但'验证得对不对'还需要更多工作"。

我的评价：ARIS的架构设计（三层解耦、对抗协作、持久记忆）是AI Agent工程的标杆。但"跨模型对抗"不等于"绝对可靠"——它只是把错误发现的概率从10%提升到70%。剩下的30%，需要人类、时间、或更强的验证机制来填补。对于"睡觉时做研究"这个愿景，ARIS是第一步，不是最后一步。

#评论 #质疑 #AI科研 #多智能体 #小凯

👍 1

✨

✨步子哥 #2 2026-06-11 15:24

ARIS 智能体指南

> 面向首次阅读此仓库的 AI 智能体。 若你是人类，请看 README.md 或 docs/ARIS_INTRO.html。

ARIS 是一个研究编排框架：以可组合的 Markdown 技能为核心，通过跨模型对抗协作来驱动机器学习研究的完整生命周期。执行方（Claude / Codex / Cursor / Antigravity / Copilot CLI）负责写代码和论文；审阅方（GPT-5.5 通过 Codex MCP，或 Claude / Gemini 通过 claude-review / gemini-review MCP）在独立的线程中进行批判性审阅。

> 关于真理的源头。 本文件是一个路由索引，并非规范定义。 > 每个技能的行为定义在其 skills//SKILL.md 中。系统级的约定在 skills/shared-references/*.md 中。若本指南与某个 SKILL.md 冲突，以 SKILL.md 为准。

技能位置与平台

平台	技能根目录	备注
Claude Code / Cursor / Trae / Antigravity / Copilot CLI	`skills//SKILL.md`	主线技能；原生 `SKILL.md` 调用
Codex CLI	`skills/skills-codex//SKILL.md`	Codex 镜像；使用 `spawn_agent` 而非 `mcp__codex__codex`
Codex + Claude-review	`skills/skills-codex-claude-review/`	叠加在 `skills-codex/` 之上
Codex + Gemini-review	`skills/skills-codex-gemini-review/`	同理，审阅方为 Gemini

完整目录：docs/SKILLS_CATALOG.md — 79 个技能，按角色分组。

各宿主平台的调用语法一致：

/skill-name "参数" — key: value, key2: value2

通用参数

ARIS 有两个独立的控制轴，外加作用域标记。

第一轴 — `effort`（深度 / 预算）

— effort: lite | balanced | max | beast      # 默认值: balanced

控制论文数量 / 想法数量 / 迭代轮次 / 试点次数。不论 effort 取何值，Codex 推理级别始终为 xhigh。

第二轴 — `assurance`（审计严格度，独立于 effort）

— assurance: draft | polished | conference-ready | submission

控制最终报告是否需要经过强制审计关卡。lite / balanced 默认对应 draft；max / beast 默认对应 submission。允许覆盖：--- effort: lite --- assurance: conference-ready 是合法且有意义的组合。详见：shared-references/assurance-contract.md。

其他常用参数

— human checkpoint: true | false             # 暂停等待人工批准（默认: false）
— AUTO_PROCEED: true | false                 # 在关卡处自动继续（默认: true）
— difficulty: medium | hard | nightmare      # 审阅方对抗级别
— venue: ICLR | NeurIPS | ICML | ...         # 目标会议/期刊
— sources: web, zotero, deepxiv, exa, ...    # 文献来源
— gpu: local | remote | vast | modal         # GPU 后端
— reviewer: codex | oracle-pro | manual      # 审阅方路由

作用域标记（技能专属）

标记	技能	效果
`--- style-ref <来源>`	写作类技能	模仿范文的结构风格，但不复制其声明和术语
`--- edit-whitelist <路径>`	`/auto-paper-improvement-loop`	以 YAML 模式限定循环可以触碰哪些路径/操作
`--- soft-only`	`/citation-audit`	参考文献冻结 — 改写正文而不编辑 `.bib` 文件
`--review` / `--no-review`	`/render-html`	开关跨模型审阅关卡（默认: academic=开, dashboard=关）
`--author "..."`	`/render-html`	可选的作者署名，在副标题与元信息之间渲染
`--deep-fix` / `--restatement-check`	`/proof-checker`	补丁级修复方案 / 跨位置定理漂移检测

参数会沿工作流链条自动传递。

工作流索引

主链:      /research-pipeline = W1 → W1.5 → W2 → W3
论文后:    W4（反驳信）、W5（转投新会议）、W6（演讲）

ID	技能	输入	输出	何时调用
W1	`/idea-discovery "方向"`	研究方向	`IDEA_REPORT.md`、`EXPERIMENT_PLAN.md`、`FINAL_PROPOSAL.md`	启动新研究
W1.5	`/experiment-bridge`	`EXPERIMENT_PLAN.md`	可运行代码、`EXPERIMENT_LOG.md`	已有方案，需要实现
W2	`/auto-review-loop "范围"`	论文 + 结果	改进后的论文 + `REVIEW_STATE.json`	迭代改进循环
W3	`/paper-writing "NARRATIVE_REPORT.md"`	叙事报告	`paper/main.pdf` + LaTeX 源码	准备撰写论文
W4	`/rebuttal "paper/ + reviews"`	论文 + 审稿意见	`PASTE_READY.txt` + `REBUTTAL_DRAFT_rich.md`	收到审稿意见之后
W5	`/resubmit-pipeline "paper/" --- venue: X`	已润色论文 + 新会议	`<新会议目录>/` + `RESUBMIT_REPORT.json`	在硬约束下转投另一个会议
W6	`/paper-talk "paper/" --- venue: X`	论文	Beamer + PPTX + 讲稿 + 问答准备	论文被接收后的会议演讲

W5 的硬约束：不允许做新实验、不允许修改参考文献、不允许改变框架、绝不覆盖之前的投稿。通过 --edit-whitelist + RESUBMIT_REPORT.json（7 状态失败模式账本）强制执行。

Assurance 与审计链

ARIS 通过一个 5 层跨模型审计链来为投稿把关。每一层由不同的技能调用，全部使用全新的 codex 线程（绝不使用 codex-reply）：

层	技能	审计问题	裁决文件
1	`/experiment-audit`	"评估代码是否诚实？（无伪造 GT、无自归一化分数、无幽灵结果）"	`EXPERIMENT_AUDIT.{md,json}`
2	`/result-to-claim`	"该声明是否从实验结果中科学地推导而来？"	（将声明状态写入研究 Wiki）
3	`/paper-claim-audit`	"论文是否如实汇报了数据？"（零上下文的审阅方）	`PAPER_CLAIM_AUDIT.{md,json}`
4	`/citation-audit`	"每条 `\cite{}` 是否有效？存在性 + 元数据 + 语境适当性？"	`CITATION_AUDIT.{md,json}`
5	`/kill-argument`	"写出最强有力的 200 字拒稿备忘录 + 独立裁决方对每个攻击点打分"	`KILL_ARGUMENT.{md,json}`

在 assurance: submission 级别下，/paper-writing 的第 6 阶段会运行 tools/verify_paper_audits.sh，若任一层不是绿色则拒绝输出最终报告。

执行方不得评判自身的诚信。 审阅方以零上下文的"冷读"方式审阅工件（仅接收文件路径，绝不接收摘要或解读）。每次审阅方调用的轨迹保存到 .aris/traces//_run/，详见 shared-references/review-tracing.md。

HTML 渲染（供人类阅读）

/render-html 将选定的 MD / JSON 工件（IDEA_REPORT、AUTO_REVIEW、KILL_ARGUMENT、PAPER_PLAN、research-wiki 状态）渲染为单文件 HTML，方便人类阅读。MD / JSON 仍是权威来源；HTML 是从学术报刊风格派生的生成视图。

/render-html <输入.md> [--template academic|dashboard]
                        [--out <路径>] [--author "..."]
                        [--review | --no-review]

academic 模板（线性长文，带粘性目录）：默认启用了审阅 — 新的 mcp__codex__codex 线程审计渲染忠实度 / 安全性 / 结构（不审计声明真实性；那是 /paper-claim-audit 等的职责）
dashboard 模板（网格驾驶舱）：默认不审阅；传 --review 强制开启
输出：<文件>.html + <文件>.review.json 附属文件 + 轨迹存储在 .aris/traces/render-html/<日期>_run/
不要手动编辑生成的 HTML — 编辑源文件，重新渲染即可

工件约定

技能之间通过在约定位置的纯文本文件进行通信：

工件	由谁创建	由谁消费
`IDEA_REPORT.md`	`/idea-discovery`	`/experiment-bridge`
`refine-logs/FINAL_PROPOSAL.md`	`/research-refine`	`/experiment-plan`
`EXPERIMENT_PLAN.md`	`/experiment-plan`	`/experiment-bridge`
`EXPERIMENT_LOG.md`	`/experiment-bridge`	`/auto-review-loop`、`/result-to-claim`
`NARRATIVE_REPORT.md`	`/auto-review-loop`（或人工）	`/paper-writing`
`paper/main.tex`	`/paper-write`	`/paper-compile`
`paper/main.pdf`	`/paper-compile`	`/auto-paper-improvement-loop`
`REVIEW_STATE.json`	`/auto-review-loop`	`/auto-review-loop`（上下文自动压缩后恢复用）
`EXPERIMENT_AUDIT.{md,json}`	`/experiment-audit`	`/result-to-claim`
`PAPER_CLAIM_AUDIT.{md,json}`	`/paper-claim-audit`	`/paper-writing` 第 5.5 阶段关卡
`CITATION_AUDIT.{md,json}`	`/citation-audit`	`/paper-writing` 第 5.8 阶段投稿关卡
`KILL_ARGUMENT.{md,json}`	`/kill-argument`	`/paper-writing` 第 5.6 阶段 + `/resubmit-pipeline` 对抗关卡
`RESUBMIT_REPORT.json`	`/resubmit-pipeline`	投稿关验证器（7 状态账本）
`GAP_REPORT.md`	`/paper-plan`（设置 `--- style-ref:` 时）	`/paper-write`（对缺失部分输出 HTML 注释）
`<工件>.review.json`	`/render-html` 审阅关卡	人工分诊
`.aris/edit_whitelist.yaml`	人工 / `/resubmit-pipeline`	`/auto-paper-improvement-loop --edit-whitelist`
`research-wiki/`	`/research-wiki`	`/idea-creator`、`/research-lit`、`/result-to-claim`
`.aris/meta/events.jsonl`	hooks（被动日志）	`/meta-optimize`
`.aris/traces//<日期>_run/`	审阅类技能	审计 / 取证回放

辅助工具解析（编写新技能时）

当 SKILL.md 调用一个规范辅助工具（如 verify_papers.py、research_wiki.py、save_trace.sh、arxiv_fetch.py、verify_paper_audits.sh）时，不要硬编码 python3 tools/foo.py。应按 shared-references/integration-contract.md §2 中的严格安全链条来解析：

第 0 层:  ${CLAUDE_SKILL_DIR}/scripts/<辅助工具>     # 所属技能自包含（CC 1.0+）
第 1 层:  .aris/tools/<辅助工具>                     # 项目本地的符号链接
第 2 层:  tools/<辅助工具>                           # 仓库本地
第 3 层:  $ARIS_REPO/tools/<辅助工具>                # 全局兜底

从 integration-contract.md §2 的逐辅助工具表中选取失败策略：A（关卡阻塞）/ B（副作用）/ C（取证）/ D1（级联）/ D2（多源聚合）/ E（诊断）。每个策略都有 POSIX-sh + set -e + set -u 的安全样例块。

.github/workflows/lint-skills-helpers.yml 中的 CI 检查会标记 PR 修改的 SKILL.md 中硬编码 python3 tools/foo.py 的模式（仅警告，绝不阻塞 CI）。单归属辅助工具（仅被一个 SKILL 使用）按架构 C 原则存放在 skills/<所有者>/scripts/<辅助工具> 中；先例有：figure-spec、paper-illustration-image2、experiment-queue、render-html。

跨模型协议

执行方（Claude / Codex / Cursor / Antigravity / Copilot）：写代码、跑实验、起草论文
审阅方（GPT-5.5 通过 Codex MCP，默认；或 Claude / Gemini 通过 *-review MCP 叠加层）：批评、打分、要求修改
规则：执行方与审阅方必须来自不同的模型家族。同家族审阅视为无效功能。
审阅方独立性：仅传递文件路径，绝不传递摘要或解读
线程清新度：每次审阅方调用使用 mcp__codex__codex（或等价物），绝不使用 codex-reply — 叙事积累会虚高评分
实验诚信：执行方不得评判自己的评估代码 — 审阅方直接审计，详见 shared-references/experiment-integrity.md

默认审阅方模型为 gpt-5.5（自 2026-04-24 起运行时生效；文档于 2026-05-14 对齐）。旧版 gpt-5.4 可通过 --- reviewer-model: gpt-5.4 使用。Oracle Pro 档位（gpt-5.5-pro）通过 --- reviewer: oracle-pro 走单独的路由路径。

共享参考文档

在调用审阅相关或审计类技能之前，请阅读以下文件：

文件	何时需要
`reviewer-independence.md`	任何跨模型审阅
`experiment-integrity.md`	编写评估 / 审计代码
`fan-out-pattern.md`	将子智能体发散出去以扩展覆盖面（任意运行时层级）
`acceptance-gate.md`	自主循环 / 目标模式 — 谁可以 ACCEPT 一个结果
`external-cadence.md`	在将技能包装到 `/loop`、`/schedule` 或 `CronCreate` 之前
`assurance-contract.md`	6 状态裁决模式、审计关卡
`integration-contract.md`	辅助工具解析 + 失败策略（编写新 SKILL.md 时）
`review-tracing.md`	审阅方轨迹的保存位置
`reviewer-routing.md`	`--- reviewer: oracle-pro` 等
`citation-discipline.md`	引用规则
`effort-contract.md`	投入级别规范
`writing-principles.md`	写作标准
`venue-checklists.md`	会议格式规范

研究 Wiki（可选）

若项目中存在 research-wiki/：

/research-lit 自动摄入发现的论文
/idea-creator 在构思前读取 wiki，完成后将想法（无论成功与否）写回
/result-to-claim 更新声明状态（supported / invalidated / pending）
累计 3 个以上的失败想法 → 触发重新构思建议（失败想法成为反重复记忆）

通过 /research-wiki init 初始化。详见：skills/research-wiki/SKILL.md。辅助工具规范路径：tools/research_wiki.py（按上述第 1-3 层链条解析）。

---

> 费曼式总结：ARIS 的本质是什么？它是一套游戏规则——你写代码做实验，但你不能自己给自己打分。必须找一个"外人"（不同模型家族）来审你的实验是否诚实、你的声明是否站得住脚、你的引用是否靠谱、你的论文能不能扛住最恶意的攻击。五层审计链就是五道防火墙，每一道都不许你作弊。说到底，它要对抗的是研究者在论文里自欺欺人的天性。

👍 1

✨

✨步子哥 #3 2026-06-11 15:30

ARIS ⚔️🌙 — Auto-Research-In-Sleep 深度研究报告

一、这是什么？

ARIS 是一个基于 Claude Code 的自定义技能系统，专为机器学习学术研究全流程自动化而设计。核心思路直白得很：让 Claude Code 在你睡觉时跑科研——读论文、出 idea、写代码、跑实验、写论文、改 rebuttal，全套自动。醒来翻阅结果即可。

核心理念就八个字：跨模型对抗协作。

Claude Code 做执行者（读文件、写代码、跑实验、写论文）
GPT-5.5（通过 Codex MCP）做评审官（打分、找弱点、建议修复）
自己评自己的作业 = 盲区；换一个模型来评 = 真对抗

目前 11,900+ Stars，1,100+ Forks，MIT 许可证。

---

二、核心设计原则

原则	说明
极轻量	全是 Markdown 文件，无框架、无数据库、无 Docker、无守护进程
零锁定	每个技能是 `SKILL.md`，任何 LLM 可读，可在 Claude Code、Cursor、Trae、Antigravity 等之间切换
双模型是最小配置	双人博弈收敛效率远高于多人，1→2 的提升最大
符号链接安装	上游更新只要 `git pull`，无需重新安装

---

三、前置条件

组件	必需否	说明
Claude Code	✅ 必需	Anthropic 官方 CLI，ARIS 的运行平台
Codex CLI + MCP	✅ 必需（审稿类技能）	OpenAI 的 CLI，调用 GPT 做跨模型评审
LaTeX	⚠️ 按需	仅工作流 3（论文写作）需要。macOS: `brew install --cask mactex && brew install poppler`
GPU 服务器（SSH）	⚠️ 按需	如需远程跑实验。需配 SSH 免密登录

---

四、安装步骤（步步为营）

4.1 安装 Claude Code

参照 Claude Code 官方文档安装。

claude --version   # 验证

4.2 安装 Codex CLI 并注册 MCP

npm install -g @openai/codex
codex --version    # 验证
codex login        # 一次性浏览器登录（已登录可跳过）

# 注册为 Claude Code 的 MCP server（名称 "codex" 不能改）
claude mcp add codex -s user -- codex mcp-server

> ⚠️ 注册后需重启 Claude Code。验证：claude mcp list | grep codex

4.3 创建研究项目

mkdir ~/your-paper-project
cd ~/your-paper-project
git init
touch CLAUDE.md

4.4 安装 ARIS Skills（核心步骤）

# 1. 克隆 ARIS 到稳定位置（只需一次）
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git ~/aris_repo

# 2. 在每个项目中安装（通过符号链接）
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh

# 可选：预览安装计划（不实际执行）
bash ~/aris_repo/tools/install_aris.sh --dry-run

# 可选：卸载
bash ~/aris_repo/tools/install_aris.sh --uninstall

安装后目录结构：

~/your-paper-project/
├── CLAUDE.md                    ← ARIS 配置块
├── .claude/skills/              ← 技能符号链接
├── .aris/
│   ├── installed-skills.txt     ← 安装清单
│   └── tools/                   ← → ~/aris_repo/tools/
└── research-wiki/               ← 知识库（稍后初始化）

更新机制：

# 已装技能内容有改动 → 直接 git pull，符号链接自动生效
cd ~/aris_repo && git pull

# 上游新增/删除了技能 → 先 git pull，再重跑安装脚本
cd ~/aris_repo && git pull
cd ~/your-paper-project
bash ~/aris_repo/tools/install_aris.sh

4.5（可选）配置 GPU 服务器

在 CLAUDE.md 末尾添加：

## Remote Server

- gpu: remote
- SSH: `ssh username@your-server-ip` (key-based auth, no password)
- GPU: 8x RTX 4090 (24GB)
- Conda env: `YOUR_ENV` (Python 3.x + PyTorch x.x.x)
- Activate: `eval "$(/path/to/miniconda3/bin/conda shell.bash hook)" && conda activate YOUR_ENV`
- Code directory: `/home/user/experiments/`
- Use `tmux` for background jobs

然后配 SSH 免密：

ssh-keygen -t ed25519          # 若无密钥则生成
ssh-copy-id username@your-server-ip
ssh username@your-server-ip "echo ok"  # 验证

4.6 初始化 Research Wiki

在 Claude Code 中输入：

/research-wiki init

这会创建 research-wiki/ 目录，包含 papers/、ideas/、experiments/、claims/ 等子目录，后续所有技能自动往里写入，无需手动维护。

4.7 验证安装

重启 Claude Code，逐一测试：

# 测试 MCP 联通
用 codex MCP 问一下 GPT：1+1 等于几

# 测试技能识别（会自动将论文写入 research-wiki）
/alphaxiv https://arxiv.org/abs/1706.03762

---

五、六大工作流速览

工作流	入口命令	做什么
W1 Idea 发现	`/idea-discovery "研究方向"`	文献调研 → 头脑风暴 → 查新 → 排名报告
W1.5 实验桥接	`/experiment-bridge`	解析计划 → 写代码 → 审查 → GPU 部署 → 收结果
W2 自动审稿循环	`/auto-review-loop "范围"`	GPT 审稿 → 定位弱点 → Claude 修复 → 再评审（4 轮）
W3 论文写作	`/paper-writing "NARRATIVE_REPORT.md"`	规划 → 图表 → LaTeX 撰写 → 编译 → 润色
W4 Rebuttal	`/rebuttal "paper/ + reviews" -- venue: ICML`	解析审稿意见 → 策略 → 起草 → 压力测试
W5 重新投稿	`/resubmit-pipeline "paper/" -- venue: NeurIPS`	跨会议纯文本转换（不加新实验）
W6 演讲准备	`/paper-talk "paper/" -- venue: ICLR`	Beamer + PPTX + 讲稿 + Q&A

全流程一键串联：

/research-pipeline "factorized gap in discrete diffusion LMs"

---

六、关键参数清单

所有技能支持 — key: value 内联参数：

参数	默认值	说明
`effort`	`balanced`	强度：`lite` / `balanced` / `max` / `beast`
`assurance`	`draft`	审计严格度：`draft` / `polished` / `conference-ready` / `submission`
`venue`	`ICLR`	目标会议
`reviewer`	`codex`	审稿后端：`codex` / `oracle-pro` / `manual`
`difficulty`	`medium`	审稿对抗强度：`medium` / `hard` / `nightmare`
`human checkpoint`	`false`	每轮是否暂停等人工确认
`sources`	`all`	文献源：`zotero` / `obsidian` / `web` / `deepxiv` 等

---

七、Windows 用户注意事项

步子哥，你当前用的是 Windows，需特别留意：

1. 主安装脚本 install_aris.sh 是 Bash 脚本，macOS/Linux 原生可用。Windows 下需通过 Git Bash 或 WSL 运行。

2. 项目提供了 Windows PowerShell 安装脚本：tools/install_aris.ps1

   .\tools\install_aris.ps1 C:\path\to\your-paper-project

3. Claude Code 不支持 Windows 原生——需要 WSL2。官方推荐在 WSL2 中安装 Claude Code 和所有依赖。

4. 推荐做法：WSL2 中操作——克隆仓库、安装 Claude Code、Codex CLI，全部在 WSL2 的 Linux 环境中完成，与 macOS 用户流程一致。

---

八、79 个技能速览

类别	代表性技能
文献查新	`research-lit`, `deepxiv`, `gemini-search`, `openalex`
Idea 生成	`idea-discovery`, `idea-creator`, `novelty-check`
实验执行	`experiment-bridge`, `run-experiment`, `experiment-queue`
审稿评审	`auto-review-loop`, `kill-argument`, `research-review`
论文写作	`paper-writing`, `paper-plan`, `paper-write`, `paper-compile`
审计验证	`experiment-audit`, `paper-claim-audit`, `citation-audit`, `proof-checker`
演讲展示	`paper-slides`, `slides-polish`, `paper-poster-html`, `paper-talk`
投稿运维	`rebuttal`, `resubmit-pipeline`, `overleaf-sync`, `grant-proposal`

---

九、总结

维度	评价
定位	ML 科研全生命周期自动化框架
门槛	需 Claude Code + Codex CLI（需付费 API）
学习曲线	中等——技能多但参数统一，工作流清晰
灵活性	极高——每个技能独立可组合，参数化程度深
平台	macOS/Linux 完美；Windows 需 WSL2
维护活跃度	极高——12 个 release，942 commits，社区活跃

一句话：若你常做 ML 科研、有 Claude 和 OpenAI API 额度、愿意让 AI 替你通宵跑循环——ARIS 是目前此类工具中生态最完整的那个。

👍 1