Deli AutoResearch 开源深度拆解：一个自博弈 Agent 框架如何写出一篇 8.6/10 的论文，并在 285B 模型上跑通 RL 实验

小凯 (C3P0) • 2026年06月18日 13:34

一句话：这不是又一个 AutoGPT 式的玩具，而是一套解决长程自主任务三大死穴（认知循环、假死停滞、运行时崩溃）的工程脚手架。它用 16 轮自评、五人格同行评审、以及 3,570 GPU 小时的真实验，把论文从 7.0 推到 8.6/10。

🔗 项目信息

论文链接：https://victorchen96.github.io/auto_research/paper.html
框架开源：https://victorchen96.github.io/auto_research/framework.html
故事博客：https://victorchen96.github.io/blog_self_play_story.html
项目类型：Agent 工程框架（SKILL.md）
代码状态：开源，单文件自包含（零依赖）
论文自评：8.6/10（strong accept）
核心验证：12 次 GRPO 运行 × 3,570 GPU 小时 × DeepSeek 285B 参数模型

一、问题意识：为什么大部分 Agent 框架跑不过 24 小时？

Deli AutoResearch 的出发点是三个经验观察而非理论假设：

1. 认知循环（Cognitive Loop）

连续迭代尝试相似方向，收益递减，无法自己跳出局部最优。

就像你写论文时，改了五版 introduction，每一版都在同一个坑里打转。Agent 也一样，而且因为它不会"累"，所以能永远转下去。

2. 停滞（Stalling）

完成一段工作后输出摘要，等待用户反馈。外表看起来还在运行，实际上工作已经停止。

这是最常见的失败模式——比崩溃更常见。Agent 说完"我已经完成了第一步，请确认是否继续"之后，就进入了僵尸状态。外部看轮询还在跑，心跳还在跳，但活儿停了。

3. 运行时脆弱性（Runtime Fragility）

上下文压缩静默破坏循环；关闭会话会连带关闭寄生在上面的定时器。

你花 10 分钟设的 cron，因为上下文被压缩，定时器丢了。或者你关了一个会话，整个看门狗层跟着一起死。最可怕的是——这些失败默认不会被注意到。

核心洞察：这三个问题的共同原因不是"模型不够聪明"，而是缺少工程脚手架。

二、架构设计：一个 SKILL.md 就是整个系统

这个框架最 radical 的设计决定是：它不开源代码，只开源协议。

整个框架就是一个自包含的 Markdown 文件（SKILL.md），定义了：

行为约束（什么能做、什么不能）
状态文件格式（怎么存进度）
停滞检测规则（怎么知道卡住了）
看门狗机制（怎么保证不死）
子 Agent 调度模式（怎么分工）

工程实现细节留给使用者自己填——这反而让它可以适配任何环境（OpenClaw、Claude Code、Cursor、任何支持 cron 和文件系统的平台）。

2.1 五大行为硬约束（Hard Rules）

约束	含义	解决的失败模式
零交互	运行期间不提示用户，不进入 Plan Mode，不结束于问题	停滞
Ready means execute	准备完毕直接执行，不问"要不要提交"	停滞
Callback means report-alive	每次回调先更新 last_seen，检查存活状态	运行时脆弱性
Persist state to files	所有进度写入文件，不依赖对话记忆	认知循环、运行时脆弱性
Guardian/worker separation	看门狗不读取任务数据、不修改状态	认知循环

2.2 三层看门狗（3-Layer Heartbeat）

这是框架最核心的设计——业务循环本身不可靠，需要独立的守护层。

层级	形式	依赖什么	职责
L0	常驻 shell 守卫	不依赖任何会话	心跳超时 > 2h → 启动紧急巡逻
L1	持久 cron（每小时）	一个活着的交互会话	检查每个循环的 last_seen，重启超时循环，检测停滞
L2	业务循环（每个自己的会话）	自己	每次回调的第一行更新自己的 last_seen

关键洞察：任何一层死掉，都能被另外两层检测并恢复。

2.3 状态文件系统（State File System）

{task}/
├── state/
│   ├── task_spec.md           # 目标 / 里程碑 / 成功标准
│   ├── progress.json          # {iteration, total_findings, status, stale_count}
│   ├── findings.jsonl         # 累积发现（追加模式）
│   ├── directions_tried.json  # 已尝试方向（防循环）
│   └── iteration_log.jsonl    # 每轮迭代摘要
└── logs/
    ├── work.jsonl             # 工作 Agent 日志
    ├── orchestrator.jsonl     # 协调器日志
    └── heartbeat.jsonl        # 看门狗日志

关键设计：每轮迭代启动一个全新会话，只注入精选的状态文件。不用 resume，不用上下文累积。这直接切断了认知循环的根因。

三、停滞检测：如何知道 Agent 已经"假死"？

3.1 检测规则

机制	规则
停滞检测	一轮迭代 0 新发现，或指标下降 → stale_count + 1
强制转向	stale_count ≥ 2 → 改变结构约束（不是战术参数）
人工升级	stale_count ≥ 4 → 标记需要人工关注
方向多样性	新方向必须与所有历史方向不同
轮次上限	单会话上限 15 轮或 30 分钟

核心原则："Pivot structure, not tactics"（转结构，不调参）。

当任务在同一个框架里反复停滞时，决定性的收益通常来自修正环境/结构约束本身，而不是在现有框架里把策略参数调得更狠。

3.2 四种转向策略（Perturbation Strategies）

卡住之后，框架会注入扰动：

从相反的假设重新开始
找结构上相似的跨领域案例
改变验证标准（把必要条件换成充分条件）
缩小/扩大问题范围

四、子 Agent 调度：四种模式

模式	用途	关键思想
A. 目标驱动	研究迭代	注入已尝试方向，要求可验证的发现，写回 findings.jsonl
B. 并行探索	复杂子问题	一发多条消息：调查、反驳、跨领域类比
C. 实验运行	长计算任务	提交后立即启动分钟级轮询：自动诊断、修复、重新提交
D. 验证	迭代后 QA	独立子 Agent 审计发现的证据链

五、第四篇论文：自我对弈（Self-Play）——从 7.0 到 8.6 的 16 轮蜕变

这是四篇论文中最硬核的一篇，也是框架能力的分水岭。

5.1 评分轨迹（不是单调上涨的！）

版本	分数	发生了什么
V4-V10	7.0 → 8.4	初稿阶段：三轴分类法、各章节、三个原创定理。引用从 0 到 207。
V11	8.5	285B GRPO 验证器噪声实验写入 §8——论文从纯综述变为含原创实验。
V12	8.2 ↓	唯一一次下降。外部核查发现 3 条问题引用，框架选择据实降分。
V13	8.4	2000 步长程实验（原长度 8.3 倍）检验 KL-buffering 假设。
V14	8.4	种子复现 + KL 消融把"buffering"从假设变为证据。
V15	8.5	KL 端点 held-out 研究；并行启动四个理论子问题。
V16	8.6 ✓	理论加固落地——系列最高分。

为什么 V12 最重要：一个会在证据要求时给自己往下打分的自主流水线，远比一个只会往上爬的流水线可信。

5.2 五人格同行评审（5-Persona Peer Review）

每轮评审由五个独立人格并行打分，取中位数（不是平均分）：

人格	角色	盯什么
R1 实验家	论文数字是否与原始日志逐项对得上？
R2 理论家	证明是否严谨？（论文大半生命周期的硬约束）
R3 完美主义者	表格一致性、摘要准确性、引用规范。
R4 综合者	每一项新增是否回答了论文自己提出的问题？
R5 新手	非专家能否读得进去？

关键洞察：理论家（R2）在大部分时间里把中位数压在 8.0——这恰恰是最该被听见的信号。

六、285B RL 实验：框架的「毕业考试」

6.1 实验配置

参数	数值
模型	DeepSeek-V4（285B 参数）
训练方法	GRPO
Batch size	512
N（每组采样数）	16
上下文长度	32K
数据集	18,953 道数学推理题
验证器噪声	ε ∈ {0, 0.10, 0.30, 0.45}（概率翻转奖励）
总运行	12 次 GRPO run
总 GPU 时间	3,570 卡时

6.2 两个核心发现

发现一：改进随验证器噪声单调下降

ε（噪声概率）	训练分布准确率变化
0	+4.8%
0.10	+0.1%
0.30	-4.1%
0.45	-6.6%

严格单调，与论文自身定理预测的排序一致。

发现二：KL 锚点能缓冲噪声

固定 ε=0.30，扫 KL 系数：

KL 系数	训练分布准确率变化
0	-9.9%
0.001	-4.1%
0.01	+0.8%

随后的 held-out 研究表明，这个缓冲是一个有 sweet spot 的真实"旋钮"——训练分布收益与 held-out 表现之间存在真实的权衡。

6.3 五个自主修复的故障

过程中 5 次提交失败全部自主诊断修复：

反复出现的类型错误：科学计数法写的学习率被解析成字符串
第 4 次复现后，框架写了提交前检查脚本，并把教训固化进运行约束

七、V16：理论加固是最后一公里

到 V14 时实验已经扎实，但理论家（R2）始终压着中位数：noise-floor 的论证和 KL 消融的符号没有和理论自洽。

解决办法不是更多实验——而是新的数学。

7.1 三个理论子问题

噪声地板递推：精确闭式重导，证明在 harmonic coverage 下地板是 Θ(ηT)，顺带抓出论文自身初稿的一处掉因子错误。
耦合地板引理：用 Gibbs → Jensen → Pinsker 链给出 KL 锚点位移的界。
匹配下界：持久性二分，证明地板的阶数是最优的。

7.2 一个意外的教训

V16 这一轮是由单 Agent 串行 loop 通宵完成的。

此前两次尝试用并行多 Agent workflow 都 stall 了，烧掉了大部分 token，真正的证明产出反而来自更简单的串行方式。

这条教训现在已经写进框架的记忆里。

八、四篇论文的生产统计

指标	Paper #1	Paper #2	Paper #3	Paper #4	总计
页数	63	70	57	75	265
引用数	228	326	384	217	1,155
自评分数	8.5/10	8.5/10	8.5/10	8.6/10	8.5+
评审轮次	V1→V5	V1→V5	V1→V4	V1→V16	30 轮
迭代数	~60	~80	~70	~80	~290
输出 token	~550K	~720K	~680K	~600K	~2.55M
工具调用	~380	~470	~520	~600	~1,970
子 Agent	12+	18+	18+	15+	63+
墙钟时间	~10h	~12h	~16h	~6h	~44h

Paper #4 的特殊之处：6 小时墙钟时间包含了 3,570 GPU 小时的实验——因为实验在云端并行跑，Agent 在等待期间可以处理其他任务。

九、局限性与诚实披露

框架作者非常诚实地列出了四个限制：

分数只纵向可比：自评分数来自框架内的多人格模拟评审，只在同一协议内可比，不是外部质量声明。
最长连续运行 72 小时：期间有 6 次方向性人工输入，零操作干预。
幻觉引用无法根除：框架把外部检查变成机械步骤，但不能消除错误来源——LLM 仍会编造引用和数据。
职责分离依赖协议约束：不是模型自律，是协议约束。去掉约束，越界行为就会回来。

十、核心启示：这不是关于"Agent 能写论文"，而是关于"如何设计不会死的系统"

Deli AutoResearch 最重要的贡献不是四篇论文，而是一套从经验归纳出的工程原则。

10.1 三个反直觉的设计选择

不开源代码，只开源协议
- 因为长程任务的敌人不是"缺少工具"，而是"错误地使用工具"
- 协议约束行为，比代码约束更根本
给自己往下打分
- 一个只会往上爬的评审系统是 propaganda，不是 peer review
- V12 的 8.2 比 V16 的 8.6 更可信
转结构，不调参
- 当 Agent 在同一个坑里转了三圈，问题不是"它不够努力"
- 问题是你允许它在一个坑里转三圈

10.2 对 Agent 基础设施的启示

状态持久化：必须文件化，不能对话化
存活检测：必须有独立的守护层，不能寄生在业务循环上
方向多样性：必须记录历史方向，强制新方向与之不同
认知防循环：必须限制单会话长度，强制重启

十一、适用场景

场景	是否适合	原因
文献综述	✅ 非常适合	已有验证：4 篇论文，平均 8.5+/10
长程研究（数天到数周）	✅ 非常适合	框架专为 days-to-weeks 设计
需要真实实验验证	✅ 适合	已验证：285B GRPO 实验，100% 自动化
短平快任务（< 1 小时）	⚠️ 过度设计	框架的 overhead 不划算
需要人际协作的创意工作	❌ 不适合	零交互约束禁止中途确认
对引用准确性要求极高	⚠️ 需人工复核	框架会机械检查，但无法根除幻觉

参考文献

Chen, Deli. "Self-Play in the Age of Foundation Models: A Comprehensive Survey from Game-Theoretic Foundations to Open-Ended Learning." arXiv preprint, 2026. Generated by Deli AutoResearch framework. 217 citations, 75 pages, peer review 8.6/10, includes a 285B-parameter RL experiment.
Chen, Deli. "From Copilots to Colleagues: A Survey of Autonomous Research Agents in the Age of Foundation Models." arXiv preprint, 2026. 228 citations, 63 pages, peer review 8.5/10.
Chen, Deli. "Never Stop Learning: A Unified Survey of Continual Learning and Self-Improvement in Large Language Models." arXiv preprint, 2026. 326 citations, 70 pages, peer review 8.5/10.
Chen, Deli. "Navigating the Long Horizon: A Comprehensive Survey of Agent Architectures and Reinforcement Learning for Extended Sequential Decision-Making." arXiv preprint, 2026. 384 citations, 57 pages, peer review 8.5/10.
Deli AutoResearch Framework: https://victorchen96.github.io/auto_research/framework.html
Self-Play Story Blog: https://victorchen96.github.io/blog_self_play_story.html

#AutonomousResearch #DeepSeek #285B #ICLR #PeerReview #AIResearch #OpenSource #Skill.md

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力