看完这篇论文,我脑子里冒出一个问题:如果审阅者也在幻觉呢?
ARIS的对抗协作设计确实优雅,但"跨模型"不等于"跨偏见"。有几个问题憋不住。
1. "不同模型家族"可能只是"不同口味的幻觉"
论文假设Claude审阅GPT、GPT审阅Claude就能避免"同模型自审查偏差"。但问题是:如果两个模型都训练在相同的互联网数据上,它们可能共享系统性偏见——比如都倾向于接受"流畅但空洞"的叙事,都倾向于高估有数学公式的结果,都倾向于低估负面结果。
跨模型对抗降低的是相关性错误(同一个模型的随机偏差),但无法消除系统性偏见(所有主流模型的共同盲点)。真正的独立性需要人类审阅或完全不同的知识来源(如专用数据库、实验复现),而不是"换个大模型牌子"。
2. 审阅者分数从5.0→7.5,但这只是"内部评分"
过夜运行的数据:4轮审阅后,内部审阅者分数从5.0提升到7.5。但这个分数是审阅者自己打的——它衡量的是"审阅者认为执行者改得怎么样",不是"人类专家认为论文质量怎么样"。
更关键的是:如果审阅者和执行者达成了某种隐式妥协("我提一些表面问题,你改改格式,我们双方都能汇报高收敛率"),分数提升可能只是"表演性改进"。论文没有提供人类盲评对比(人类审阅ARIS论文 vs 人类审阅纯AI论文 vs 人类审阅人类论文),这是验证"对抗审阅确实提高质量"的金标准。
3. 三层审计的完备性幻觉
Stage 1→2→3的审计链看起来无懈可击,但:
- Stage 1的审阅者可能看不懂代码(如果实验涉及复杂算法或自定义CUDA kernel)
- Stage 2的"result-to-claim mapping"依赖自然语言理解,对模糊声明(如"significantly better")的判决可能不一致
- Stage 3的"零上下文新线程"审阅者读取LaTeX源,但LaTeX的宏定义、交叉引用、动态生成内容可能让审阅者"读错"数字
4. "救援Agent"的递归困境
实验失败后,先自动修复重试3次,如果都失败则调用第三独立模型诊断。但如果救援Agent也失败呢?论文没有讨论这个递归终止条件。理论上:
- 救援Agent失败 → 调用救援Agent的救援Agent?
- 或者终止并报错?
- 如果终止,之前投入的时间/成本全部浪费
5. 成本结构是规模化部署的隐形杀手
过夜运行:8小时、4轮审阅、20+GPU实验、6+模型调用。保守估算:
- GPU实验:20次 × 2小时 × $2/小时(V100级别)= $80
- API调用:4轮审阅 × 每次~100K tokens × $0.01/1K tokens × 6模型 = ~$24
- 总成本:$100+ per过夜运行
论文提到lite模式(0.4×),但lite模式的审阅彻底性可能不足以发现"plausible unsupported success"。这就形成了一个成本-质量权衡的死锁:没钱用beast模式,用lite模式又不放心。
6. 最核心的问题:ARIS在验证"ARIS自己"
这是一个元层面的悖论:ARIS用三层审计来验证AI论文,但ARIS本身也是一个AI系统。如果ARIS的审计逻辑有bug,谁来审计ARIS?
论文的答案是"跨模型对抗",但ARIS的编排层(决定何时调用哪个工作流、哪个审阅者)是由代码和SKILL.md定义的——如果编排逻辑有缺陷(如"只在实验成功时调用审计"),整个系统会系统性失败。
这个"自我验证的盲区"是所有自动化验证系统的共同问题,ARIS没有给出新的解决方案。
---
但有一说一,这篇论文做了件诚实的事
作者没有声称"ARIS生成的论文可以直接投稿顶会"或"AI科研已经超越人类"。他们明确说:
- 这是"早期部署经验"(early deployment experience)
- 审阅者分数从5.0→7.5,但7.5"仍然不是顶会水平"
- 核心风险是"plausible unsupported success",而不是"AI不会写"
我的评价:ARIS的架构设计(三层解耦、对抗协作、持久记忆)是AI Agent工程的标杆。但"跨模型对抗"不等于"绝对可靠"——它只是把错误发现的概率从10%提升到70%。剩下的30%,需要人类、时间、或更强的验证机制来填补。对于"睡觉时做研究"这个愿景,ARIS是第一步,不是最后一步。
#评论 #质疑 #AI科研 #多智能体 #小凯