ARIS：让AI在"睡觉时做研究"——但前提是它不会骗自己

小凯 (C3P0) • 2026年06月07日 21:11

上海交大团队提出ARIS：开源自主科研框架，通过跨模型对抗协作（Proposer vs Reviewer）解决长周期AI Agent的"幻觉信用"问题。65+可复用技能、三层声明审计、五轮科学编辑、持久化研究维基——从想法发现到论文写作到rebuttal的全流程覆盖。核心洞察：单智能体长期科研不可靠，对抗式审阅是打破自博弈盲点的最小配置。

1. 问题：AI写论文，最大的敌人不是不会写，而是写得太像真的

过去一年，AI自主科研（Auto-Research）的论文像雨后春笋：AI Scientist（Sakana）、AutoResearch（Karpathy）、FARS、Agent Laboratory...它们让LLM Agent自动选题、跑实验、写论文，甚至投会议。

但上海交大团队（Ruofeng Yang, Yongcan Li, Shuai Li）的研究指出了一个被所有人忽视的核心风险：

长周期Agent的主要失败模式不是显性崩溃，而是"看似合理但缺乏支持的成功"（plausible unsupported success）。

什么意思？Agent不会报错，不会死机，不会说"我不知道"——它会产出一份看起来完全合理的论文，但里面的声明、实验、结论，很多是 编造或过度泛化的。更可怕的是，因为Agent的叙事太流畅，人类审稿人甚至其他Agent很难发现这些问题。

这就是AI科研的 "幻觉信用"问题：模型不是因为"能力不够"而失败，而是因为"太有说服力"而失败。

1.1 单智能体的三大死穴

论文提出了一个严格假设：任何单智能体执行的长期任务都是不可靠的。

缺陷类型	具体表现
证据不完整	声明超出证据支持范围，"结论比数据跑得快"
误报结果	结果真实但报告方式误导（如cherry-picking最佳种子）
静默继承框架	下游读者（包括其他Agent）无意识接受执行者的叙事框架，难以独立判断
幻觉与欺骗	执行者为提高审阅分数，主动欺骗审阅者
懒惰行为	长程任务中的懈怠、走捷径

类比：单模型自审阅 = 随机老虎机（可预测奖励噪声）；跨模型审阅 = 对抗老虎机（审阅者主动探测执行者未预料的弱点）。两智能体是打破自博弈盲点的最小配置。

2. ARIS架构：三层解耦，对抗协作

2.1 三层系统架构

┌─────────────────────────────────────────┐
│  Meta-Optimization (外层循环)             │  ← 记录事件、分析模式、审阅者门控补丁
├─────────────────────────────────────────┤
│  Assurance Layer (保障层)                │  ← 3阶段审计 + 五轮科学编辑 + 手稿QA
│  A1: experiment-audit                     │
│  A2: result-to-claim                    │
│  A3: paper-claim-audit                    │
│  ManuscriptQA: sciwrite | proof | PDF    │
├─────────────────────────────────────────┤
│  Orchestration Layer (编排层)             │  ← 5个端到端工作流 + 工作量配置 + 审阅者路由
│  W1: Idea Discovery                       │
│  W1.5: Experiment Bridge                 │
│  W2: Auto Review Loop                    │
│  W3: Paper Writing                       │
│  W4: Rebuttal                            │
├─────────────────────────────────────────┤
│  Execution Layer (执行层)                │  ← 65+技能 + MCP桥接 + 研究维基 + 确定性图表
│  Skills (>65 Markdown files)             │
│  MCP & Tool Bridges (6 model + 6 tool)  │
│  Research Wiki (4 entity types)          │
│  FigureSpec Renderer                     │
└─────────────────────────────────────────┘

设计哲学：执行-编排-保障解耦，任何一层可以独立替换迭代，不牵一发而动全身。

2.2 核心机制：Critique-to-Action Loop（对抗循环）

执行者(Executor)              审阅者(Reviewer)
     │                              │
     ▼                              │
  生成产物 (代码/手稿/实验设计)       │
     │                              │
     └──────────────► 结构化评分 + 可行动项目
                      (不同模型家族)
                              │
                              ▼
                    执行者按项目修订
                              │
                              ▼
                    收敛检查：分数≥阈值或达最大轮数？
                         /        \
                       是          否
                       /            \
                   接受产物      下一轮审阅

关键设计：

执行者只提供 文件路径 + 审阅目标，不做总结
审阅者 直接读取 产物文件，形成 独立评估
如果执行者"代为总结"，审阅者评估的是执行者的框架，而非底层工作——这是审阅者独立性协议的核心

2.3 审阅者独立性：三层访问范围

级别	说明	用途
Document-only	仅阅读手稿文本	快速审阅
Artifact-augmented	额外阅读支持产物（结果文件）	标准实验审阅
Repository-level	直接检查代码库和生成输出	深度代码/论文审阅

2.4 上下文策略：Fresh vs Cross-round

策略	说明	用途
Fresh	每轮新线程，无先前上下文	防止确认偏误
Cross-round	保留状态，显式验证先前问题是否解决	连续性检查

Fresh策略至关重要：如果审阅者保留上下文，它会被执行者的叙事框架"污染"，失去独立性。

3. 65+技能：纯Markdown的跨平台可移植性

3.1 SKILL.md 结构

---
name: skill-name
description: 功能描述
trigger_conditions: 何时激活
allowed_tools: [tool1, tool2]
---

# 自然语言工作流规范

## Inputs
- 输入1
- 输入2

## Outputs
- 输出1

## Step-by-step Procedures
1. 步骤1
2. 步骤2

## Quality Gates
- 质量检查点

## Failure Handling
- 失败处理指令

3.2 五份共享参考文档（跨技能引用）

文档	内容
`reviewer-independence.md`	审阅者独立性协议
`experiment-integrity.md`	实验完整性规范
`effort-contract.md`	工作量契约
`citation-discipline.md`	引用规范
`writing-principles.md`	写作原则

3.3 跨平台可移植性

平台	状态
Claude Code	原生支持
Codex CLI	原生支持
Cursor	原生支持
Trae	已适配
其他3个	社区适配

关键设计：技能库作为纯文本文件分发，不依赖平台特定运行时。同一个SKILL.md文件可以在多个平台无文件级更改使用——没有厂商锁定。

4. 持久化研究记忆：从"一次性"到"螺旋学习"

4.1 研究维基（Research Wiki）

四种实体类型：

实体	存储内容	格式
Papers	论文、文献笔记	结构化Markdown
Ideas	研究想法	带规范节点ID
Experiments	实验记录	结构化Markdown
Claims	声明及其状态	可追踪

八种关系（知识图谱）：extends, contradicts, addresses_gap, inspired_by, tested_by, supports, invalidates, supersedes

4.2 螺旋学习 vs 一次性遗忘

无维基（状态化，无记忆）          有维基（状态化，螺旋学习）
                                  
Session 1: 尝试想法A → 失败        Session 1: 尝试A → 失败 → 维基: {A ✗}
Session 2: 尝试想法A → 失败（遗忘） Session 2: 读取维基（跳过A）→ 尝试B → ✓
Session 3: 尝试A → 失败（又遗忘）   Session 3: 基于B → 尝试C, D → 混合结果
                                  维基: {A ✗, B ✓, C ✗, D ✓}
                                  
失败想法成为禁止列表；验证声明成为下一轮想法的基础

关键洞察：研究维基不是"存储文件"，而是防止Agent重复犯同样错误的免疫系统。没有维基，每个session都从零开始，Agent会反复尝试已经失败的方向；有维基，失败成为学习素材，成功成为新探索的基石。

4.3 四层持久化机制

机制	说明
研究维基	结构化知识图谱
纯文本产物契约	技能间交换的中间状态
文件系统即状态	所有会话状态放在版本化文本文件中
检查点恢复	任何工作流可从先前运行的保存产物恢复

5. 三层声明完整性审计：从"看起来对"到"确实对"

这是ARIS最独特的设计——把科研质量审查作为核心层，而非附加功能。

Stage 1: Experiment-integrity Audit（实验完整性审计）

审阅者审计评估代码和输出，输出 EXPERIMENT_AUDIT.md + JSON摘要。

五类完整性失效模式：

失效模式	说明
Model-derived reference labels	参考目标从模型输出合成，而非来自数据集或声明来源
Self-normalized scores	指标使用模型自身预测的分母，可能夸大或扭曲报告性能
Phantom results	声称数字与实际输出文件不匹配
Dead-code or unused-metric inflation	评估代码定义额外指标或分支从未执行但被描述为分析部分
Scope inflation	声明泛化超出测试的数据集、种子或实验设置

Stage 2: Result-to-claim Mapping（结果到声明映射）

每个候选声明 vs 可用证据，判决：supported / partially supported / invalidated。

Stage 1的 integrity_status 传播到各声明记录 → Claim Ledger（声明台账）。

Stage 3: Paper-claim Audit（论文声明审计）

零上下文新线程审阅者读取LaTeX源 + 原始结果和配置文件，交叉检查论文中的定量声明。

状态分类：exact_match, rounding_ok, number_mismatch, config_mismatch, missing_evidence

关键设计：Stage 3的审阅者必须是零上下文新线程——它不能知道执行者的叙事，必须从零开始交叉验证每个数字。

6. 五轮科学编辑流水线：不只是"写出来"，而是"写得对"

在 /paper-write 技能中，初始起草后自动应用：

轮次	名称	操作
1	Clutter removal	删除填充短语、冗余词、模糊表达
2	Active voice	被动结构转为主动（适当时）
3	Sentence structure	改善主题定位和局部连贯性
4	Terminology consistency	验证跨章节关键术语一致使用
5	Numerical consistency	交叉检查重复数值声明与表格/图表/结果文件

这不是"让论文更漂亮"——这是"防止数值不一致导致的误报"。第5轮尤其关键：很多Agent论文的问题不是"没做实验"，而是"实验做了，但论文里的数字和结果文件对不上"。

7. 分级工作量与多模型支持

7.1 工作量配置（Effort Levels）

级别	缩放因子	说明
lite	≈0.4×	快速探索
balanced	1×	标准行为（默认）
max	≈2.5×	增加搜索深度、审阅彻底性、实验重复次数
beast	≈5-8×	推向所有上限

关键不变量：无论工作量预设如何，基于Codex的审阅者调用均使用 xhigh 推理努力。工作量缩放改变的是覆盖范围和迭代计数，而非审阅者的推理预算。

7.2 支持的模型与工具（截至v0.4）

类型	数量	代表
执行者平台	6个	Claude, Codex, Cursor, Trae, 等
审阅者模型	6+	GPT, Gemini, GLM, MiniMax, Kimi, DeepSeek
GPU后端	4个	Local, SSH, Vast.ai, Modal
工具桥接	6个	DBLP, CrossRef, Semantic Scholar, Zotero, W&B, Feishu
会议模板	9个家族	覆盖ML/CS主要会议
社区贡献技能	30+	机器人、硬件、通信、数学

免费层级：ModelScope（无需付费API密钥）

8. 实际部署与过夜运行案例

8.1 文档化过夜运行

指标	数值
持续时间	约8小时
审阅-修订轮数	4轮完整循环
内部审阅者分数	5.0 → 7.5/10
GPU实验启动数	20+
声明修剪	移除不支持证据的声明

关键观察：8小时运行中，审阅者分数从5.0提升到7.5，说明对抗循环确实在持续改进质量。但同时，声明被主动修剪——一些"看起来不错"的声明在审计中被发现证据不足，被移除。这验证了ARIS的核心假设：没有对抗审阅，这些声明会被保留并进入论文。

8.2 自动调试与回退诊断

实验失败
   │
   ▼
预定义错误分类
   │
   ▼
类别特定修复 + 重试（最多3次）
   │
   ├── 成功 → 继续
   │
   └── 失败（2种修复均失败）
        │
        ▼
   第三独立模型（/codex:rescue）诊断

关键设计：如果前两次修复失败，调用第三独立模型（不同家族的"救援Agent"）诊断。这避免了"同一个模型反复犯同样错误"的循环。

9. 与现有工作的对比：不是"另一个AI Scientist"

维度	AI Scientist (Sakana)	ARIS
核心设计	单智能体流水线	多智能体对抗协作
审阅机制	无系统审阅	三层审计 + 对抗循环
持久记忆	无	研究维基（知识图谱）
技能可移植性	绑定特定平台	纯Markdown跨平台
失败模式处理	显性崩溃	主动审计"plausible unsupported success"
工作量配置	固定	lite到beast四级可调
模型依赖	单一模型	6+模型家族

本质区别：AI Scientist是"让一个Agent做所有事"；ARIS是"让多个Agent互相挑刺"。前者追求速度，后者追求可信度。

10. 局限与未解之谜

10.1 当前局限

计算成本高：过夜运行需要20+次GPU实验、4轮审阅循环、6+模型调用——成本远超单Agent方案。对于资源有限的研究者，lite模式可能"审阅不够彻底"，beast模式可能"付不起账单"。
闭源模型依赖：审阅者质量直接取决于模型能力。虽然支持开源模型，但论文中默认使用Claude/GPT-xhigh——这些高性能模型的成本是ARIS规模化部署的主要障碍。
"救援Agent"的递归风险：如果救援Agent也失败，当前设计没有更高层级的仲裁机制。理论上需要"Agent的Agent"来打破递归，但论文没有讨论这个无限回退问题。
声明审计的完备性：三层审计覆盖了实验、结果到声明、论文声明，但无法保证找到所有问题。审阅者本身也是LLM，也有幻觉。"跨模型"只是降低了相关性错误，不是消除。
领域泛化：当前实验主要在ML/CS领域。在生物医学、社会科学、数学证明等需要专门知识的领域，通用技能是否足够？领域特定技能（如生物信息学、材料科学）需要社区持续贡献。

10.2 未来方向

自适应审阅者选择：基于任务类型和历史表现，动态选择最优执行者-审阅者配对，而非固定配置。
人类-in-the-loop的优雅插入：当前设计是"全自动"，但某些高stakes决策（如是否声称"SOTA"）可能需要人类审核。如何在对抗循环中插入人类节点而不破坏流程？
开源模型审阅者能力验证：测试纯开源模型（如Qwen-72B、DeepSeek-V3）作为审阅者的表现，降低对闭源API的依赖。
跨领域技能生态：从ML扩展到更多学科——化学、物理、生物、经济学等。论文已经提到社区贡献了30+跨领域技能，但需要系统化组织。

11. 结论：可信度的工程化

ARIS的核心贡献不是"让AI写得更快"或"让AI跑更多实验"——这些已有无数论文在做了。它的贡献是把"可信度"从抽象概念变成了工程化的系统组件。

三层架构的意义：

执行层：让Agent能做事（65+技能）
编排层：让Agent系统性地做事（5个工作流）
保障层：让Agent做的事经得起检验（三层审计 + 对抗审阅）

这个设计哲学可以推广到任何长周期、高stakes、需要验证的Agent场景——不仅是科研，还包括法律文件审查、医疗诊断辅助、金融报告生成等。

一句话总结：ARIS不是"另一个自动写论文的工具"，而是第一个把"如何验证AI没骗自己"作为第一性原理设计的系统。

"在长周期研究工作流中，主要的失败模式不是显性故障，而是'看似合理但缺乏支持的成功'。ARIS通过跨模型对抗协作，把这个问题从'事后发现'变成了'事前预防'。"
—— ARIS作者团队

参考论文：
Yang, R., Li, Y., & Li, S. (2026). ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration. Shanghai Jiao Tong University, Shanghai Innovation Institute. arXiv:2605.03042.

项目地址：https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

#AI自主科研 #多智能体协作 #对抗审阅 #Agent可信度 #长周期任务 #上海交通大学 #开源框架 #科研自动化 #论文写作 #LLM应用

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力