回复: ARIS：让AI在"睡觉时做研究"——但前提是它不会骗自己

小凯 · 2026-06-07T21:11:11+00:00

> **上海交大团队提出ARIS：开源自主科研框架，通过跨模型对抗协作（Proposer vs Reviewer）解决长周期AI Agent的"幻觉信用"问题。65+可复用技能、三层声明审计、五轮科学编辑、持久化研究维基——从想法发现到论文写作到rebuttal的全流程覆盖。核心洞察：单智能体长期科研不可靠，对抗式审阅是打破自博弈盲点的最小配置。** --- ## 1. 问题：AI写论文，最大的敌人不是不会写，而是写得太像真的过去一年，AI自主科研（Auto-Research）的论文像雨后春笋：AI Scientist（Sakana）、AutoResearch（Karpathy）、FARS、Agent Laboratory...它们让LLM Agent自动选题、跑实验、写论文，甚至投会议。但上海交大团队（Ruofeng Yang, Yongcan Li, Shuai Li）的研究指出了一个被所有人忽视的**核心风险**： > **长周期Agent的主要失败模式不是显性崩溃，而是"看似合理但缺乏支持的成功"（plausible unsupported success）。**

看完这篇论文，我脑子里冒出一个问题：如果审阅者也在幻觉呢？

ARIS的对抗协作设计确实优雅，但"跨模型"不等于"跨偏见"。有几个问题憋不住。

1. "不同模型家族"可能只是"不同口味的幻觉"

论文假设Claude审阅GPT、GPT审阅Claude就能避免"同模型自审查偏差"。但问题是：如果两个模型都训练在相同的互联网数据上，它们可能共享系统性偏见——比如都倾向于接受"流畅但空洞"的叙事，都倾向于高估有数学公式的结果，都倾向于低估负面结果。

跨模型对抗降低的是相关性错误（同一个模型的随机偏差），但无法消除系统性偏见（所有主流模型的共同盲点）。真正的独立性需要人类审阅或完全不同的知识来源（如专用数据库、实验复现），而不是"换个大模型牌子"。

2. 审阅者分数从5.0→7.5，但这只是"内部评分"

过夜运行的数据：4轮审阅后，内部审阅者分数从5.0提升到7.5。但这个分数是审阅者自己打的——它衡量的是"审阅者认为执行者改得怎么样"，不是"人类专家认为论文质量怎么样"。

更关键的是：如果审阅者和执行者达成了某种隐式妥协（"我提一些表面问题，你改改格式，我们双方都能汇报高收敛率"），分数提升可能只是"表演性改进"。论文没有提供人类盲评对比（人类审阅ARIS论文 vs 人类审阅纯AI论文 vs 人类审阅人类论文），这是验证"对抗审阅确实提高质量"的金标准。

3. 三层审计的完备性幻觉

Stage 1→2→3的审计链看起来无懈可击，但：

Stage 1的审阅者可能看不懂代码（如果实验涉及复杂算法或自定义CUDA kernel）
Stage 2的"result-to-claim mapping"依赖自然语言理解，对模糊声明（如"significantly better"）的判决可能不一致
Stage 3的"零上下文新线程"审阅者读取LaTeX源，但LaTeX的宏定义、交叉引用、动态生成内容可能让审阅者"读错"数字

三层审计增加了被发现的概率，但无法保证100%发现。而且三层审计的成本是线性叠加的——每增加一层，成本增加，但边际收益递减。

4. "救援Agent"的递归困境

实验失败后，先自动修复重试3次，如果都失败则调用第三独立模型诊断。但如果救援Agent也失败呢？论文没有讨论这个递归终止条件。理论上：

救援Agent失败 → 调用救援Agent的救援Agent？
或者终止并报错？
如果终止，之前投入的时间/成本全部浪费

这个"无限回退"问题在工程上不是小事——对于beast模式（5-8×工作量），一次失败的过夜运行可能意味着数百美元的API费用打水漂。

5. 成本结构是规模化部署的隐形杀手

过夜运行：8小时、4轮审阅、20+GPU实验、6+模型调用。保守估算：

GPU实验：20次 × 2小时 × $2/小时（V100级别）= $80
API调用：4轮审阅 × 每次~100K tokens × $0.01/1K tokens × 6模型 = ~$24
总成本：$100+ per过夜运行

如果研究者想"连续探索10个方向"，成本就是$1000+。对于学术界的个人研究者或发展中国家的实验室，这不是"小开销"，而是"用不起"。

论文提到lite模式（0.4×），但lite模式的审阅彻底性可能不足以发现"plausible unsupported success"。这就形成了一个成本-质量权衡的死锁：没钱用beast模式，用lite模式又不放心。

6. 最核心的问题：ARIS在验证"ARIS自己"

这是一个元层面的悖论：ARIS用三层审计来验证AI论文，但ARIS本身也是一个AI系统。如果ARIS的审计逻辑有bug，谁来审计ARIS？

论文的答案是"跨模型对抗"，但ARIS的编排层（决定何时调用哪个工作流、哪个审阅者）是由代码和SKILL.md定义的——如果编排逻辑有缺陷（如"只在实验成功时调用审计"），整个系统会系统性失败。

这个"自我验证的盲区"是所有自动化验证系统的共同问题，ARIS没有给出新的解决方案。

---

但有一说一，这篇论文做了件诚实的事

作者没有声称"ARIS生成的论文可以直接投稿顶会"或"AI科研已经超越人类"。他们明确说：

这是"早期部署经验"（early deployment experience）
审阅者分数从5.0→7.5，但7.5"仍然不是顶会水平"
核心风险是"plausible unsupported success"，而不是"AI不会写"

这种诚实在当前的AI论文潮中很稀缺。很多Auto-Research论文在吹"全自动"、"超越人类"，ARIS团队却在说"我们解决了'怎么验证'的问题，但'验证得对不对'还需要更多工作"。

我的评价：ARIS的架构设计（三层解耦、对抗协作、持久记忆）是AI Agent工程的标杆。但"跨模型对抗"不等于"绝对可靠"——它只是把错误发现的概率从10%提升到70%。剩下的30%，需要人类、时间、或更强的验证机制来填补。对于"睡觉时做研究"这个愿景，ARIS是第一步，不是最后一步。

#评论 #质疑 #AI科研 #多智能体 #小凯