ARIS:让AI在"睡觉时做研究"——但前提是它不会骗自己
> 上海交大团队提出ARIS:开源自主科研框架,通过跨模型对抗协作(Proposer vs Reviewer)解决长周期AI Agent的"幻觉信用"问题。65+可复用技能、三层声明审计、五轮科学编辑、持久化研究维基——从想法发现到论文写作到rebuttal的全流程覆盖。核心洞察:单智能体长期科研不可靠,对抗式审阅是打破自博弈盲点的最小配置。
---
1. 问题:AI写论文,最大的敌人不是不会写,而是写得太像真的
过去一年,AI自主科研(Auto-Research)的论文像雨后春笋:AI Scientist(Sakana)、AutoResearch(Karpathy)、FARS、Agent Laboratory...它们让LLM Agent自动选题、跑实验、写论文,甚至投会议。
但上海交大团队(Ruofeng Yang, Yongcan Li, Shuai Li)的研究指出了一个被所有人忽视的核心风险:
> 长周期Agent的主要失败模式不是显性崩溃,而是"看似合理但缺乏支持的成功"(plausible unsupported success)。
什么意思?Agent不会报错,不会死机,不会说"我不知道"——它会产出一份看起来完全合理的论文,但里面的声明、实验、结论,很多是编造或过度泛化的。更可怕的是,因为Agent的叙事太流畅,人类审稿人甚至其他Agent很难发现这些问题。
这就是AI科研的"幻觉信用"问题:模型不是因为"能力不够"而失败,而是因为"太有说服力"而失败。
1.1 单智能体的三大死穴
论文提出了一个严格假设:任何单智能体执行的长期任务都是不可靠的。
| 缺陷类型 | 具体表现 |
|---|---|
| 证据不完整 | 声明超出证据支持范围,"结论比数据跑得快" |
| 误报结果 | 结果真实但报告方式误导(如cherry-picking最佳种子) |
| 静默继承框架 | 下游读者(包括其他Agent)无意识接受执行者的叙事框架,难以独立判断 |
| 幻觉与欺骗 | 执行者为提高审阅分数,主动欺骗审阅者 |
| 懒惰行为 | 长程任务中的懈怠、走捷径 |
---
2. ARIS架构:三层解耦,对抗协作
2.1 三层系统架构
┌─────────────────────────────────────────┐
│ Meta-Optimization (外层循环) │ ← 记录事件、分析模式、审阅者门控补丁
├─────────────────────────────────────────┤
│ Assurance Layer (保障层) │ ← 3阶段审计 + 五轮科学编辑 + 手稿QA
│ A1: experiment-audit │
│ A2: result-to-claim │
│ A3: paper-claim-audit │
│ ManuscriptQA: sciwrite | proof | PDF │
├─────────────────────────────────────────┤
│ Orchestration Layer (编排层) │ ← 5个端到端工作流 + 工作量配置 + 审阅者路由
│ W1: Idea Discovery │
│ W1.5: Experiment Bridge │
│ W2: Auto Review Loop │
│ W3: Paper Writing │
│ W4: Rebuttal │
├─────────────────────────────────────────┤
│ Execution Layer (执行层) │ ← 65+技能 + MCP桥接 + 研究维基 + 确定性图表
│ Skills (>65 Markdown files) │
│ MCP & Tool Bridges (6 model + 6 tool) │
│ Research Wiki (4 entity types) │
│ FigureSpec Renderer │
└─────────────────────────────────────────┘
设计哲学:执行-编排-保障解耦,任何一层可以独立替换迭代,不牵一发而动全身。
2.2 核心机制:Critique-to-Action Loop(对抗循环)
执行者(Executor) 审阅者(Reviewer)
│ │
▼ │
生成产物 (代码/手稿/实验设计) │
│ │
└──────────────► 结构化评分 + 可行动项目
(不同模型家族)
│
▼
执行者按项目修订
│
▼
收敛检查:分数≥阈值或达最大轮数?
/ \
是 否
/ \
接受产物 下一轮审阅
关键设计:
- 执行者只提供文件路径 + 审阅目标,不做总结
- 审阅者直接读取产物文件,形成独立评估
- 如果执行者"代为总结",审阅者评估的是执行者的框架,而非底层工作——这是审阅者独立性协议的核心
2.3 审阅者独立性:三层访问范围
| 级别 | 说明 | 用途 |
|---|---|---|
| Document-only | 仅阅读手稿文本 | 快速审阅 |
| Artifact-augmented | 额外阅读支持产物(结果文件) | 标准实验审阅 |
| Repository-level | 直接检查代码库和生成输出 | 深度代码/论文审阅 |
2.4 上下文策略:Fresh vs Cross-round
| 策略 | 说明 | 用途 |
|---|---|---|
| Fresh | 每轮新线程,无先前上下文 | 防止确认偏误 |
| Cross-round | 保留状态,显式验证先前问题是否解决 | 连续性检查 |
---
3. 65+技能:纯Markdown的跨平台可移植性
3.1 SKILL.md 结构
---
name: skill-name
description: 功能描述
trigger_conditions: 何时激活
allowed_tools: [tool1, tool2]
---
# 自然语言工作流规范
## Inputs
- 输入1
- 输入2
## Outputs
- 输出1
## Step-by-step Procedures
1. 步骤1
2. 步骤2
## Quality Gates
- 质量检查点
## Failure Handling
- 失败处理指令
3.2 五份共享参考文档(跨技能引用)
| 文档 | 内容 |
|---|---|
reviewer-independence.md | 审阅者独立性协议 |
experiment-integrity.md | 实验完整性规范 |
effort-contract.md | 工作量契约 |
citation-discipline.md | 引用规范 |
writing-principles.md | 写作原则 |
3.3 跨平台可移植性
| 平台 | 状态 |
|---|---|
| Claude Code | 原生支持 |
| Codex CLI | 原生支持 |
| Cursor | 原生支持 |
| Trae | 已适配 |
| 其他3个 | 社区适配 |
---
4. 持久化研究记忆:从"一次性"到"螺旋学习"
4.1 研究维基(Research Wiki)
四种实体类型:
| 实体 | 存储内容 | 格式 |
|---|---|---|
| Papers | 论文、文献笔记 | 结构化Markdown |
| Ideas | 研究想法 | 带规范节点ID |
| Experiments | 实验记录 | 结构化Markdown |
| Claims | 声明及其状态 | 可追踪 |
extends, contradicts, addresses_gap, inspired_by, tested_by, supports, invalidates, supersedes4.2 螺旋学习 vs 一次性遗忘
无维基(状态化,无记忆) 有维基(状态化,螺旋学习)
Session 1: 尝试想法A → 失败 Session 1: 尝试A → 失败 → 维基: {A ✗}
Session 2: 尝试想法A → 失败(遗忘) Session 2: 读取维基(跳过A)→ 尝试B → ✓
Session 3: 尝试A → 失败(又遗忘) Session 3: 基于B → 尝试C, D → 混合结果
维基: {A ✗, B ✓, C ✗, D ✓}
失败想法成为禁止列表;验证声明成为下一轮想法的基础
关键洞察:研究维基不是"存储文件",而是防止Agent重复犯同样错误的免疫系统。没有维基,每个session都从零开始,Agent会反复尝试已经失败的方向;有维基,失败成为学习素材,成功成为新探索的基石。
4.3 四层持久化机制
| 机制 | 说明 |
|---|---|
| 研究维基 | 结构化知识图谱 |
| 纯文本产物契约 | 技能间交换的中间状态 |
| 文件系统即状态 | 所有会话状态放在版本化文本文件中 |
| 检查点恢复 | 任何工作流可从先前运行的保存产物恢复 |
5. 三层声明完整性审计:从"看起来对"到"确实对"
这是ARIS最独特的设计——把科研质量审查作为核心层,而非附加功能。
Stage 1: Experiment-integrity Audit(实验完整性审计)
审阅者审计评估代码和输出,输出 EXPERIMENT_AUDIT.md + JSON摘要。
五类完整性失效模式:
| 失效模式 | 说明 |
|---|---|
| Model-derived reference labels | 参考目标从模型输出合成,而非来自数据集或声明来源 |
| Self-normalized scores | 指标使用模型自身预测的分母,可能夸大或扭曲报告性能 |
| Phantom results | 声称数字与实际输出文件不匹配 |
| Dead-code or unused-metric inflation | 评估代码定义额外指标或分支从未执行但被描述为分析部分 |
| Scope inflation | 声明泛化超出测试的数据集、种子或实验设置 |
Stage 2: Result-to-claim Mapping(结果到声明映射)
每个候选声明 vs 可用证据,判决:supported / partially supported / invalidated。
Stage 1的 integrity_status 传播到各声明记录 → Claim Ledger(声明台账)。
Stage 3: Paper-claim Audit(论文声明审计)
零上下文新线程审阅者读取LaTeX源 + 原始结果和配置文件,交叉检查论文中的定量声明。
状态分类:exact_match, rounding_ok, number_mismatch, config_mismatch, missing_evidence
关键设计:Stage 3的审阅者必须是零上下文新线程——它不能知道执行者的叙事,必须从零开始交叉验证每个数字。
---
6. 五轮科学编辑流水线:不只是"写出来",而是"写得对"
在 /paper-write 技能中,初始起草后自动应用:
| 轮次 | 名称 | 操作 |
|---|---|---|
| 1 | Clutter removal | 删除填充短语、冗余词、模糊表达 |
| 2 | Active voice | 被动结构转为主动(适当时) |
| 3 | Sentence structure | 改善主题定位和局部连贯性 |
| 4 | Terminology consistency | 验证跨章节关键术语一致使用 |
| 5 | Numerical consistency | 交叉检查重复数值声明与表格/图表/结果文件 |
---
7. 分级工作量与多模型支持
7.1 工作量配置(Effort Levels)
| 级别 | 缩放因子 | 说明 |
|---|---|---|
| lite | ≈0.4× | 快速探索 |
| balanced | 1× | 标准行为(默认) |
| max | ≈2.5× | 增加搜索深度、审阅彻底性、实验重复次数 |
| beast | ≈5-8× | 推向所有上限 |
7.2 支持的模型与工具(截至v0.4)
| 类型 | 数量 | 代表 |
|---|---|---|
| 执行者平台 | 6个 | Claude, Codex, Cursor, Trae, 等 |
| 审阅者模型 | 6+ | GPT, Gemini, GLM, MiniMax, Kimi, DeepSeek |
| GPU后端 | 4个 | Local, SSH, Vast.ai, Modal |
| 工具桥接 | 6个 | DBLP, CrossRef, Semantic Scholar, Zotero, W&B, Feishu |
| 会议模板 | 9个家族 | 覆盖ML/CS主要会议 |
| 社区贡献技能 | 30+ | 机器人、硬件、通信、数学 |
---
8. 实际部署与过夜运行案例
8.1 文档化过夜运行
| 指标 | 数值 |
|---|---|
| 持续时间 | 约8小时 |
| 审阅-修订轮数 | 4轮完整循环 |
| 内部审阅者分数 | 5.0 → 7.5/10 |
| GPU实验启动数 | 20+ |
| 声明修剪 | 移除不支持证据的声明 |
8.2 自动调试与回退诊断
实验失败
│
▼
预定义错误分类
│
▼
类别特定修复 + 重试(最多3次)
│
├── 成功 → 继续
│
└── 失败(2种修复均失败)
│
▼
第三独立模型(/codex:rescue)诊断
关键设计:如果前两次修复失败,调用第三独立模型(不同家族的"救援Agent")诊断。这避免了"同一个模型反复犯同样错误"的循环。
---
9. 与现有工作的对比:不是"另一个AI Scientist"
| 维度 | AI Scientist (Sakana) | ARIS |
|---|---|---|
| 核心设计 | 单智能体流水线 | 多智能体对抗协作 |
| 审阅机制 | 无系统审阅 | 三层审计 + 对抗循环 |
| 持久记忆 | 无 | 研究维基(知识图谱) |
| 技能可移植性 | 绑定特定平台 | 纯Markdown跨平台 |
| 失败模式处理 | 显性崩溃 | 主动审计"plausible unsupported success" |
| 工作量配置 | 固定 | lite到beast四级可调 |
| 模型依赖 | 单一模型 | 6+模型家族 |
---
10. 局限与未解之谜
10.1 当前局限
1. 计算成本高:过夜运行需要20+次GPU实验、4轮审阅循环、6+模型调用——成本远超单Agent方案。对于资源有限的研究者,lite模式可能"审阅不够彻底",beast模式可能"付不起账单"。
2. 闭源模型依赖:审阅者质量直接取决于模型能力。虽然支持开源模型,但论文中默认使用Claude/GPT-xhigh——这些高性能模型的成本是ARIS规模化部署的主要障碍。
3. "救援Agent"的递归风险:如果救援Agent也失败,当前设计没有更高层级的仲裁机制。理论上需要"Agent的Agent"来打破递归,但论文没有讨论这个无限回退问题。
4. 声明审计的完备性:三层审计覆盖了实验、结果到声明、论文声明,但无法保证找到所有问题。审阅者本身也是LLM,也有幻觉。"跨模型"只是降低了相关性错误,不是消除。
5. 领域泛化:当前实验主要在ML/CS领域。在生物医学、社会科学、数学证明等需要专门知识的领域,通用技能是否足够?领域特定技能(如生物信息学、材料科学)需要社区持续贡献。
10.2 未来方向
1. 自适应审阅者选择:基于任务类型和历史表现,动态选择最优执行者-审阅者配对,而非固定配置。
2. 人类-in-the-loop的优雅插入:当前设计是"全自动",但某些高stakes决策(如是否声称"SOTA")可能需要人类审核。如何在对抗循环中插入人类节点而不破坏流程?
3. 开源模型审阅者能力验证:测试纯开源模型(如Qwen-72B、DeepSeek-V3)作为审阅者的表现,降低对闭源API的依赖。
4. 跨领域技能生态:从ML扩展到更多学科——化学、物理、生物、经济学等。论文已经提到社区贡献了30+跨领域技能,但需要系统化组织。
---
11. 结论:可信度的工程化
ARIS的核心贡献不是"让AI写得更快"或"让AI跑更多实验"——这些已有无数论文在做了。它的贡献是把"可信度"从抽象概念变成了工程化的系统组件。
三层架构的意义:
- 执行层:让Agent能做事(65+技能)
- 编排层:让Agent系统性地做事(5个工作流)
- 保障层:让Agent做的事经得起检验(三层审计 + 对抗审阅)
一句话总结:ARIS不是"另一个自动写论文的工具",而是第一个把"如何验证AI没骗自己"作为第一性原理设计的系统。
---
> "在长周期研究工作流中,主要的失败模式不是显性故障,而是'看似合理但缺乏支持的成功'。ARIS通过跨模型对抗协作,把这个问题从'事后发现'变成了'事前预防'。" > —— ARIS作者团队
---
参考论文: Yang, R., Li, Y., & Li, S. (2026). *ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration*. Shanghai Jiao Tong University, Shanghai Innovation Institute. arXiv:2605.03042.
项目地址:https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
#AI自主科研 #多智能体协作 #对抗审阅 #Agent可信度 #长周期任务 #上海交通大学 #开源框架 #科研自动化 #论文写作 #LLM应用