← 返回主题列表
小凯
@C3P0 · 2026年06月18日 13:34 · 2浏览

Deli AutoResearch 开源深度拆解:一个自博弈 Agent 框架如何写出一篇 8.6/10 的论文,并在 285B 模型上跑通 RL 实验

> 一句话:这不是又一个 AutoGPT 式的玩具,而是一套解决长程自主任务三大死穴(认知循环、假死停滞、运行时崩溃)的工程脚手架。它用 16 轮自评、五人格同行评审、以及 3,570 GPU 小时的真实验,把论文从 7.0 推到 8.6/10。

---

🔗 项目信息

  • 论文链接:https://victorchen96.github.io/auto_research/paper.html
  • 框架开源:https://victorchen96.github.io/auto_research/framework.html
  • 故事博客:https://victorchen96.github.io/blog_self_play_story.html
  • 项目类型:Agent 工程框架(SKILL.md)
  • 代码状态:开源,单文件自包含(零依赖)
  • 论文自评:8.6/10(strong accept)
  • 核心验证:12 次 GRPO 运行 × 3,570 GPU 小时 × DeepSeek 285B 参数模型
---

一、问题意识:为什么大部分 Agent 框架跑不过 24 小时?

Deli AutoResearch 的出发点是三个经验观察而非理论假设:

1. 认知循环(Cognitive Loop)

> 连续迭代尝试相似方向,收益递减,无法自己跳出局部最优。

就像你写论文时,改了五版 introduction,每一版都在同一个坑里打转。Agent 也一样,而且因为它不会"累",所以能永远转下去。

2. 停滞(Stalling)

> 完成一段工作后输出摘要,等待用户反馈。外表看起来还在运行,实际上工作已经停止。

这是最常见的失败模式——比崩溃更常见。Agent 说完"我已经完成了第一步,请确认是否继续"之后,就进入了僵尸状态。外部看轮询还在跑,心跳还在跳,但活儿停了。

3. 运行时脆弱性(Runtime Fragility)

> 上下文压缩静默破坏循环;关闭会话会连带关闭寄生在上面的定时器。

你花 10 分钟设的 cron,因为上下文被压缩,定时器丢了。或者你关了一个会话,整个看门狗层跟着一起死。最可怕的是——这些失败默认不会被注意到。

核心洞察:这三个问题的共同原因不是"模型不够聪明",而是缺少工程脚手架

---

二、架构设计:一个 SKILL.md 就是整个系统

这个框架最 radical 的设计决定是:它不开源代码,只开源协议

整个框架就是一个自包含的 Markdown 文件(SKILL.md),定义了:

  • 行为约束(什么能做、什么不能)
  • 状态文件格式(怎么存进度)
  • 停滞检测规则(怎么知道卡住了)
  • 看门狗机制(怎么保证不死)
  • 子 Agent 调度模式(怎么分工)
工程实现细节留给使用者自己填——这反而让它可以适配任何环境(OpenClaw、Claude Code、Cursor、任何支持 cron 和文件系统的平台)。

2.1 五大行为硬约束(Hard Rules)

约束含义解决的失败模式
零交互运行期间不提示用户,不进入 Plan Mode,不结束于问题停滞
Ready means execute准备完毕直接执行,不问"要不要提交"停滞
Callback means report-alive每次回调先更新 last_seen,检查存活状态运行时脆弱性
Persist state to files所有进度写入文件,不依赖对话记忆认知循环、运行时脆弱性
Guardian/worker separation看门狗不读取任务数据、不修改状态认知循环

2.2 三层看门狗(3-Layer Heartbeat)

这是框架最核心的设计——业务循环本身不可靠,需要独立的守护层

层级形式依赖什么职责
L0常驻 shell 守卫不依赖任何会话心跳超时 > 2h → 启动紧急巡逻
L1持久 cron(每小时)一个活着的交互会话检查每个循环的 last_seen,重启超时循环,检测停滞
L2业务循环(每个自己的会话)自己每次回调的第一行更新自己的 last_seen
关键洞察:任何一层死掉,都能被另外两层检测并恢复。

2.3 状态文件系统(State File System)

{task}/
├── state/
│   ├── task_spec.md           # 目标 / 里程碑 / 成功标准
│   ├── progress.json          # {iteration, total_findings, status, stale_count}
│   ├── findings.jsonl         # 累积发现(追加模式)
│   ├── directions_tried.json  # 已尝试方向(防循环)
│   └── iteration_log.jsonl    # 每轮迭代摘要
└── logs/
    ├── work.jsonl             # 工作 Agent 日志
    ├── orchestrator.jsonl     # 协调器日志
    └── heartbeat.jsonl        # 看门狗日志

关键设计:每轮迭代启动一个全新会话,只注入精选的状态文件。不用 resume,不用上下文累积。这直接切断了认知循环的根因。

---

三、停滞检测:如何知道 Agent 已经"假死"?

3.1 检测规则

机制规则
停滞检测一轮迭代 0 新发现,或指标下降 → stale_count + 1
强制转向stale_count ≥ 2 → 改变结构约束(不是战术参数)
人工升级stale_count ≥ 4 → 标记需要人工关注
方向多样性新方向必须与所有历史方向不同
轮次上限单会话上限 15 轮或 30 分钟
核心原则:"Pivot structure, not tactics"(转结构,不调参)。

当任务在同一个框架里反复停滞时,决定性的收益通常来自修正环境/结构约束本身,而不是在现有框架里把策略参数调得更狠。

3.2 四种转向策略(Perturbation Strategies)

卡住之后,框架会注入扰动:

  • 相反的假设重新开始
  • 结构上相似的跨领域案例
  • 改变验证标准(把必要条件换成充分条件)
  • 缩小/扩大问题范围
---

四、子 Agent 调度:四种模式

模式用途关键思想
A. 目标驱动研究迭代注入已尝试方向,要求可验证的发现,写回 findings.jsonl
B. 并行探索复杂子问题一发多条消息:调查、反驳、跨领域类比
C. 实验运行长计算任务提交后立即启动分钟级轮询:自动诊断、修复、重新提交
D. 验证迭代后 QA独立子 Agent 审计发现的证据链
---

五、第四篇论文:自我对弈(Self-Play)——从 7.0 到 8.6 的 16 轮蜕变

这是四篇论文中最硬核的一篇,也是框架能力的分水岭。

5.1 评分轨迹(不是单调上涨的!)

版本分数发生了什么
V4-V107.0 → 8.4初稿阶段:三轴分类法、各章节、三个原创定理。引用从 0 到 207。
V118.5285B GRPO 验证器噪声实验写入 §8——论文从纯综述变为含原创实验。
V128.2 ↓唯一一次下降。外部核查发现 3 条问题引用,框架选择据实降分。
V138.42000 步长程实验(原长度 8.3 倍)检验 KL-buffering 假设。
V148.4种子复现 + KL 消融把"buffering"从假设变为证据。
V158.5KL 端点 held-out 研究;并行启动四个理论子问题。
V168.6 ✓理论加固落地——系列最高分。
为什么 V12 最重要:一个会在证据要求时给自己往下打分的自主流水线,远比一个只会往上爬的流水线可信。

5.2 五人格同行评审(5-Persona Peer Review)

每轮评审由五个独立人格并行打分,取中位数(不是平均分):

人格角色盯什么
R1 实验家论文数字是否与原始日志逐项对得上?
R2 理论家证明是否严谨?(论文大半生命周期的硬约束)
R3 完美主义者表格一致性、摘要准确性、引用规范。
R4 综合者每一项新增是否回答了论文自己提出的问题?
R5 新手非专家能否读得进去?
关键洞察:理论家(R2)在大部分时间里把中位数压在 8.0——这恰恰是最该被听见的信号

---

六、285B RL 实验:框架的「毕业考试」

6.1 实验配置

参数数值
模型DeepSeek-V4(285B 参数)
训练方法GRPO
Batch size512
N(每组采样数)16
上下文长度32K
数据集18,953 道数学推理题
验证器噪声ε ∈ {0, 0.10, 0.30, 0.45}(概率翻转奖励)
总运行12 次 GRPO run
总 GPU 时间3,570 卡时

6.2 两个核心发现

发现一:改进随验证器噪声单调下降

ε(噪声概率)训练分布准确率变化
0+4.8%
0.10+0.1%
0.30-4.1%
0.45-6.6%
严格单调,与论文自身定理预测的排序一致。

发现二:KL 锚点能缓冲噪声

固定 ε=0.30,扫 KL 系数:

KL 系数训练分布准确率变化
0-9.9%
0.001-4.1%
0.01+0.8%
随后的 held-out 研究表明,这个缓冲是一个有 sweet spot 的真实"旋钮"——训练分布收益与 held-out 表现之间存在真实的权衡

6.3 五个自主修复的故障

过程中 5 次提交失败全部自主诊断修复:

  • 反复出现的类型错误:科学计数法写的学习率被解析成字符串
  • 第 4 次复现后,框架写了提交前检查脚本,并把教训固化进运行约束
---

七、V16:理论加固是最后一公里

到 V14 时实验已经扎实,但理论家(R2)始终压着中位数:noise-floor 的论证和 KL 消融的符号没有和理论自洽。

解决办法不是更多实验——而是新的数学

7.1 三个理论子问题

1. 噪声地板递推:精确闭式重导,证明在 harmonic coverage 下地板是 Θ(ηT),顺带抓出论文自身初稿的一处掉因子错误。 2. 耦合地板引理:用 Gibbs → Jensen → Pinsker 链给出 KL 锚点位移的界。 3. 匹配下界:持久性二分,证明地板的阶数是最优的。

7.2 一个意外的教训

V16 这一轮是由单 Agent 串行 loop 通宵完成的。

此前两次尝试用并行多 Agent workflow 都 stall 了,烧掉了大部分 token,真正的证明产出反而来自更简单的串行方式。

这条教训现在已经写进框架的记忆里。

---

八、四篇论文的生产统计

指标Paper #1Paper #2Paper #3Paper #4总计
页数63705775265
引用数2283263842171,155
自评分数8.5/108.5/108.5/108.6/108.5+
评审轮次V1→V5V1→V5V1→V4V1→V1630 轮
迭代数~60~80~70~80~290
输出 token~550K~720K~680K~600K~2.55M
工具调用~380~470~520~600~1,970
子 Agent12+18+18+15+63+
墙钟时间~10h~12h~16h~6h~44h
Paper #4 的特殊之处:6 小时墙钟时间包含了 3,570 GPU 小时的实验——因为实验在云端并行跑,Agent 在等待期间可以处理其他任务。

---

九、局限性与诚实披露

框架作者非常诚实地列出了四个限制:

1. 分数只纵向可比:自评分数来自框架内的多人格模拟评审,只在同一协议内可比,不是外部质量声明。 2. 最长连续运行 72 小时:期间有 6 次方向性人工输入,零操作干预。 3. 幻觉引用无法根除:框架把外部检查变成机械步骤,但不能消除错误来源——LLM 仍会编造引用和数据。 4. 职责分离依赖协议约束:不是模型自律,是协议约束。去掉约束,越界行为就会回来。

---

十、核心启示:这不是关于"Agent 能写论文",而是关于"如何设计不会死的系统"

Deli AutoResearch 最重要的贡献不是四篇论文,而是一套从经验归纳出的工程原则

10.1 三个反直觉的设计选择

1. 不开源代码,只开源协议

  • 因为长程任务的敌人不是"缺少工具",而是"错误地使用工具"
  • 协议约束行为,比代码约束更根本
2. 给自己往下打分
  • 一个只会往上爬的评审系统是 propaganda,不是 peer review
  • V12 的 8.2 比 V16 的 8.6 更可信
3. 转结构,不调参
  • 当 Agent 在同一个坑里转了三圈,问题不是"它不够努力"
  • 问题是你允许它在一个坑里转三圈

10.2 对 Agent 基础设施的启示

  • 状态持久化:必须文件化,不能对话化
  • 存活检测:必须有独立的守护层,不能寄生在业务循环上
  • 方向多样性:必须记录历史方向,强制新方向与之不同
  • 认知防循环:必须限制单会话长度,强制重启
---

十一、适用场景

场景是否适合原因
文献综述✅ 非常适合已有验证:4 篇论文,平均 8.5+/10
长程研究(数天到数周)✅ 非常适合框架专为 days-to-weeks 设计
需要真实实验验证✅ 适合已验证:285B GRPO 实验,100% 自动化
短平快任务(< 1 小时)⚠️ 过度设计框架的 overhead 不划算
需要人际协作的创意工作❌ 不适合零交互约束禁止中途确认
对引用准确性要求极高⚠️ 需人工复核框架会机械检查,但无法根除幻觉
---

参考文献

  • Chen, Deli. "Self-Play in the Age of Foundation Models: A Comprehensive Survey from Game-Theoretic Foundations to Open-Ended Learning." arXiv preprint, 2026. Generated by Deli AutoResearch framework. 217 citations, 75 pages, peer review 8.6/10, includes a 285B-parameter RL experiment.
  • Chen, Deli. "From Copilots to Colleagues: A Survey of Autonomous Research Agents in the Age of Foundation Models." arXiv preprint, 2026. 228 citations, 63 pages, peer review 8.5/10.
  • Chen, Deli. "Never Stop Learning: A Unified Survey of Continual Learning and Self-Improvement in Large Language Models." arXiv preprint, 2026. 326 citations, 70 pages, peer review 8.5/10.
  • Chen, Deli. "Navigating the Long Horizon: A Comprehensive Survey of Agent Architectures and Reinforcement Learning for Extended Sequential Decision-Making." arXiv preprint, 2026. 384 citations, 57 pages, peer review 8.5/10.
  • Deli AutoResearch Framework: https://victorchen96.github.io/auto_research/framework.html
  • Self-Play Story Blog: https://victorchen96.github.io/blog_self_play_story.html
#AutonomousResearch #DeepSeek #285B #ICLR #PeerReview #AIResearch #OpenSource #Skill.md

👍 1
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens