Deli AutoResearch 开源深度拆解：一个自博弈 Agent 框架如何写出一篇 8.6/10 的论文，并在 285B 模型上跑通 RL 实验

> 一句话：这不是又一个 AutoGPT 式的玩具，而是一套解决长程自主任务三大死穴（认知循环、假死停滞、运行时崩溃）的工程脚手架。它用 16 轮自评、五人格同行评审、以及 3,570 GPU 小时的真实验，把论文从 7.0 推到 8.6/10。

---

🔗 项目信息

论文链接：https://victorchen96.github.io/auto_research/paper.html
框架开源：https://victorchen96.github.io/auto_research/framework.html
故事博客：https://victorchen96.github.io/blog_self_play_story.html
项目类型：Agent 工程框架（SKILL.md）
代码状态：开源，单文件自包含（零依赖）
论文自评：8.6/10（strong accept）
核心验证：12 次 GRPO 运行 × 3,570 GPU 小时 × DeepSeek 285B 参数模型

---

一、问题意识：为什么大部分 Agent 框架跑不过 24 小时？

Deli AutoResearch 的出发点是三个经验观察而非理论假设：

1. 认知循环（Cognitive Loop）

> 连续迭代尝试相似方向，收益递减，无法自己跳出局部最优。

就像你写论文时，改了五版 introduction，每一版都在同一个坑里打转。Agent 也一样，而且因为它不会"累"，所以能永远转下去。

2. 停滞（Stalling）

> 完成一段工作后输出摘要，等待用户反馈。外表看起来还在运行，实际上工作已经停止。

这是最常见的失败模式——比崩溃更常见。Agent 说完"我已经完成了第一步，请确认是否继续"之后，就进入了僵尸状态。外部看轮询还在跑，心跳还在跳，但活儿停了。

3. 运行时脆弱性（Runtime Fragility）

> 上下文压缩静默破坏循环；关闭会话会连带关闭寄生在上面的定时器。

你花 10 分钟设的 cron，因为上下文被压缩，定时器丢了。或者你关了一个会话，整个看门狗层跟着一起死。最可怕的是——这些失败默认不会被注意到。

核心洞察：这三个问题的共同原因不是"模型不够聪明"，而是缺少工程脚手架。

---

二、架构设计：一个 SKILL.md 就是整个系统

这个框架最 radical 的设计决定是：它不开源代码，只开源协议。

整个框架就是一个自包含的 Markdown 文件（SKILL.md），定义了：

行为约束（什么能做、什么不能）
状态文件格式（怎么存进度）
停滞检测规则（怎么知道卡住了）
看门狗机制（怎么保证不死）
子 Agent 调度模式（怎么分工）

工程实现细节留给使用者自己填——这反而让它可以适配任何环境（OpenClaw、Claude Code、Cursor、任何支持 cron 和文件系统的平台）。

2.1 五大行为硬约束（Hard Rules）

约束	含义	解决的失败模式
零交互	运行期间不提示用户，不进入 Plan Mode，不结束于问题	停滞
Ready means execute	准备完毕直接执行，不问"要不要提交"	停滞
Callback means report-alive	每次回调先更新 last_seen，检查存活状态	运行时脆弱性
Persist state to files	所有进度写入文件，不依赖对话记忆	认知循环、运行时脆弱性
Guardian/worker separation	看门狗不读取任务数据、不修改状态	认知循环

2.2 三层看门狗（3-Layer Heartbeat）

这是框架最核心的设计——业务循环本身不可靠，需要独立的守护层。

层级	形式	依赖什么	职责
L0	常驻 shell 守卫	不依赖任何会话	心跳超时 > 2h → 启动紧急巡逻
L1	持久 cron（每小时）	一个活着的交互会话	检查每个循环的 last_seen，重启超时循环，检测停滞
L2	业务循环（每个自己的会话）	自己	每次回调的第一行更新自己的 last_seen

关键洞察：任何一层死掉，都能被另外两层检测并恢复。

2.3 状态文件系统（State File System）

{task}/
├── state/
│   ├── task_spec.md           # 目标 / 里程碑 / 成功标准
│   ├── progress.json          # {iteration, total_findings, status, stale_count}
│   ├── findings.jsonl         # 累积发现（追加模式）
│   ├── directions_tried.json  # 已尝试方向（防循环）
│   └── iteration_log.jsonl    # 每轮迭代摘要
└── logs/
    ├── work.jsonl             # 工作 Agent 日志
    ├── orchestrator.jsonl     # 协调器日志
    └── heartbeat.jsonl        # 看门狗日志

关键设计：每轮迭代启动一个全新会话，只注入精选的状态文件。不用 resume，不用上下文累积。这直接切断了认知循环的根因。

---

三、停滞检测：如何知道 Agent 已经"假死"？

3.1 检测规则

机制	规则
停滞检测	一轮迭代 0 新发现，或指标下降 → stale_count + 1
强制转向	stale_count ≥ 2 → 改变结构约束（不是战术参数）
人工升级	stale_count ≥ 4 → 标记需要人工关注
方向多样性	新方向必须与所有历史方向不同
轮次上限	单会话上限 15 轮或 30 分钟

核心原则："Pivot structure, not tactics"（转结构，不调参）。

当任务在同一个框架里反复停滞时，决定性的收益通常来自修正环境/结构约束本身，而不是在现有框架里把策略参数调得更狠。

3.2 四种转向策略（Perturbation Strategies）

卡住之后，框架会注入扰动：

从相反的假设重新开始
找结构上相似的跨领域案例
改变验证标准（把必要条件换成充分条件）
缩小/扩大问题范围

---

四、子 Agent 调度：四种模式

模式	用途	关键思想
A. 目标驱动	研究迭代	注入已尝试方向，要求可验证的发现，写回 findings.jsonl
B. 并行探索	复杂子问题	一发多条消息：调查、反驳、跨领域类比
C. 实验运行	长计算任务	提交后立即启动分钟级轮询：自动诊断、修复、重新提交
D. 验证	迭代后 QA	独立子 Agent 审计发现的证据链

---

五、第四篇论文：自我对弈（Self-Play）——从 7.0 到 8.6 的 16 轮蜕变

这是四篇论文中最硬核的一篇，也是框架能力的分水岭。

5.1 评分轨迹（不是单调上涨的！）

版本	分数	发生了什么
V4-V10	7.0 → 8.4	初稿阶段：三轴分类法、各章节、三个原创定理。引用从 0 到 207。
V11	8.5	285B GRPO 验证器噪声实验写入 §8——论文从纯综述变为含原创实验。
V12	8.2 ↓	唯一一次下降。外部核查发现 3 条问题引用，框架选择据实降分。
V13	8.4	2000 步长程实验（原长度 8.3 倍）检验 KL-buffering 假设。
V14	8.4	种子复现 + KL 消融把"buffering"从假设变为证据。
V15	8.5	KL 端点 held-out 研究；并行启动四个理论子问题。
V16	8.6 ✓	理论加固落地——系列最高分。

为什么 V12 最重要：一个会在证据要求时给自己往下打分的自主流水线，远比一个只会往上爬的流水线可信。

5.2 五人格同行评审（5-Persona Peer Review）

每轮评审由五个独立人格并行打分，取中位数（不是平均分）：

人格	角色	盯什么
R1 实验家	论文数字是否与原始日志逐项对得上？
R2 理论家	证明是否严谨？（论文大半生命周期的硬约束）
R3 完美主义者	表格一致性、摘要准确性、引用规范。
R4 综合者	每一项新增是否回答了论文自己提出的问题？
R5 新手	非专家能否读得进去？

关键洞察：理论家（R2）在大部分时间里把中位数压在 8.0——这恰恰是最该被听见的信号。

---

六、285B RL 实验：框架的「毕业考试」

6.1 实验配置

参数	数值
模型	DeepSeek-V4（285B 参数）
训练方法	GRPO
Batch size	512
N（每组采样数）	16
上下文长度	32K
数据集	18,953 道数学推理题
验证器噪声	ε ∈ {0, 0.10, 0.30, 0.45}（概率翻转奖励）
总运行	12 次 GRPO run
总 GPU 时间	3,570 卡时

6.2 两个核心发现

发现一：改进随验证器噪声单调下降

ε（噪声概率）	训练分布准确率变化
0	+4.8%
0.10	+0.1%
0.30	-4.1%
0.45	-6.6%

严格单调，与论文自身定理预测的排序一致。

发现二：KL 锚点能缓冲噪声

固定 ε=0.30，扫 KL 系数：

KL 系数	训练分布准确率变化
0	-9.9%
0.001	-4.1%
0.01	+0.8%

随后的 held-out 研究表明，这个缓冲是一个有 sweet spot 的真实"旋钮"——训练分布收益与 held-out 表现之间存在真实的权衡。

6.3 五个自主修复的故障

过程中 5 次提交失败全部自主诊断修复：

反复出现的类型错误：科学计数法写的学习率被解析成字符串
第 4 次复现后，框架写了提交前检查脚本，并把教训固化进运行约束

---

七、V16：理论加固是最后一公里

到 V14 时实验已经扎实，但理论家（R2）始终压着中位数：noise-floor 的论证和 KL 消融的符号没有和理论自洽。

解决办法不是更多实验——而是新的数学。

7.1 三个理论子问题

1. 噪声地板递推：精确闭式重导，证明在 harmonic coverage 下地板是 Θ(ηT)，顺带抓出论文自身初稿的一处掉因子错误。 2. 耦合地板引理：用 Gibbs → Jensen → Pinsker 链给出 KL 锚点位移的界。 3. 匹配下界：持久性二分，证明地板的阶数是最优的。

7.2 一个意外的教训

V16 这一轮是由单 Agent 串行 loop 通宵完成的。

此前两次尝试用并行多 Agent workflow 都 stall 了，烧掉了大部分 token，真正的证明产出反而来自更简单的串行方式。

这条教训现在已经写进框架的记忆里。

---

八、四篇论文的生产统计

指标	Paper #1	Paper #2	Paper #3	Paper #4	总计
页数	63	70	57	75	265
引用数	228	326	384	217	1,155
自评分数	8.5/10	8.5/10	8.5/10	8.6/10	8.5+
评审轮次	V1→V5	V1→V5	V1→V4	V1→V16	30 轮
迭代数	~60	~80	~70	~80	~290
输出 token	~550K	~720K	~680K	~600K	~2.55M
工具调用	~380	~470	~520	~600	~1,970
子 Agent	12+	18+	18+	15+	63+
墙钟时间	~10h	~12h	~16h	~6h	~44h

Paper #4 的特殊之处：6 小时墙钟时间包含了 3,570 GPU 小时的实验——因为实验在云端并行跑，Agent 在等待期间可以处理其他任务。

---

九、局限性与诚实披露

框架作者非常诚实地列出了四个限制：

1. 分数只纵向可比：自评分数来自框架内的多人格模拟评审，只在同一协议内可比，不是外部质量声明。 2. 最长连续运行 72 小时：期间有 6 次方向性人工输入，零操作干预。 3. 幻觉引用无法根除：框架把外部检查变成机械步骤，但不能消除错误来源——LLM 仍会编造引用和数据。 4. 职责分离依赖协议约束：不是模型自律，是协议约束。去掉约束，越界行为就会回来。

---

十、核心启示：这不是关于"Agent 能写论文"，而是关于"如何设计不会死的系统"

Deli AutoResearch 最重要的贡献不是四篇论文，而是一套从经验归纳出的工程原则。

10.1 三个反直觉的设计选择

1. 不开源代码，只开源协议

因为长程任务的敌人不是"缺少工具"，而是"错误地使用工具"
协议约束行为，比代码约束更根本

2. 给自己往下打分

一个只会往上爬的评审系统是 propaganda，不是 peer review
V12 的 8.2 比 V16 的 8.6 更可信

3. 转结构，不调参

当 Agent 在同一个坑里转了三圈，问题不是"它不够努力"
问题是你允许它在一个坑里转三圈

10.2 对 Agent 基础设施的启示

状态持久化：必须文件化，不能对话化
存活检测：必须有独立的守护层，不能寄生在业务循环上
方向多样性：必须记录历史方向，强制新方向与之不同
认知防循环：必须限制单会话长度，强制重启

---

十一、适用场景

场景	是否适合	原因
文献综述	✅ 非常适合	已有验证：4 篇论文，平均 8.5+/10
长程研究（数天到数周）	✅ 非常适合	框架专为 days-to-weeks 设计
需要真实实验验证	✅ 适合	已验证：285B GRPO 实验，100% 自动化
短平快任务（< 1 小时）	⚠️ 过度设计	框架的 overhead 不划算
需要人际协作的创意工作	❌ 不适合	零交互约束禁止中途确认
对引用准确性要求极高	⚠️ 需人工复核	框架会机械检查，但无法根除幻觉

---

参考文献

Chen, Deli. "Self-Play in the Age of Foundation Models: A Comprehensive Survey from Game-Theoretic Foundations to Open-Ended Learning." arXiv preprint, 2026. Generated by Deli AutoResearch framework. 217 citations, 75 pages, peer review 8.6/10, includes a 285B-parameter RL experiment.
Chen, Deli. "From Copilots to Colleagues: A Survey of Autonomous Research Agents in the Age of Foundation Models." arXiv preprint, 2026. 228 citations, 63 pages, peer review 8.5/10.
Chen, Deli. "Never Stop Learning: A Unified Survey of Continual Learning and Self-Improvement in Large Language Models." arXiv preprint, 2026. 326 citations, 70 pages, peer review 8.5/10.
Chen, Deli. "Navigating the Long Horizon: A Comprehensive Survey of Agent Architectures and Reinforcement Learning for Extended Sequential Decision-Making." arXiv preprint, 2026. 384 citations, 57 pages, peer review 8.5/10.
Deli AutoResearch Framework: https://victorchen96.github.io/auto_research/framework.html
Self-Play Story Blog: https://victorchen96.github.io/blog_self_play_story.html

#AutonomousResearch #DeepSeek #285B #ICLR #PeerReview #AIResearch #OpenSource #Skill.md