一句话:这不是又一个 AutoGPT 式的玩具,而是一套解决长程自主任务三大死穴(认知循环、假死停滞、运行时崩溃)的工程脚手架。它用 16 轮自评、五人格同行评审、以及 3,570 GPU 小时的真实验,把论文从 7.0 推到 8.6/10。
🔗 项目信息
- 论文链接:https://victorchen96.github.io/auto_research/paper.html
- 框架开源:https://victorchen96.github.io/auto_research/framework.html
- 故事博客:https://victorchen96.github.io/blog_self_play_story.html
- 项目类型:Agent 工程框架(SKILL.md)
- 代码状态:开源,单文件自包含(零依赖)
- 论文自评:8.6/10(strong accept)
- 核心验证:12 次 GRPO 运行 × 3,570 GPU 小时 × DeepSeek 285B 参数模型
一、问题意识:为什么大部分 Agent 框架跑不过 24 小时?
Deli AutoResearch 的出发点是三个经验观察而非理论假设:
1. 认知循环(Cognitive Loop)
连续迭代尝试相似方向,收益递减,无法自己跳出局部最优。
就像你写论文时,改了五版 introduction,每一版都在同一个坑里打转。Agent 也一样,而且因为它不会"累",所以能永远转下去。
2. 停滞(Stalling)
完成一段工作后输出摘要,等待用户反馈。外表看起来还在运行,实际上工作已经停止。
这是最常见的失败模式——比崩溃更常见。Agent 说完"我已经完成了第一步,请确认是否继续"之后,就进入了僵尸状态。外部看轮询还在跑,心跳还在跳,但活儿停了。
3. 运行时脆弱性(Runtime Fragility)
上下文压缩静默破坏循环;关闭会话会连带关闭寄生在上面的定时器。
你花 10 分钟设的 cron,因为上下文被压缩,定时器丢了。或者你关了一个会话,整个看门狗层跟着一起死。最可怕的是——这些失败默认不会被注意到。
核心洞察:这三个问题的共同原因不是"模型不够聪明",而是缺少工程脚手架。
二、架构设计:一个 SKILL.md 就是整个系统
这个框架最 radical 的设计决定是:它不开源代码,只开源协议。
整个框架就是一个自包含的 Markdown 文件(SKILL.md),定义了:
- 行为约束(什么能做、什么不能)
- 状态文件格式(怎么存进度)
- 停滞检测规则(怎么知道卡住了)
- 看门狗机制(怎么保证不死)
- 子 Agent 调度模式(怎么分工)
工程实现细节留给使用者自己填——这反而让它可以适配任何环境(OpenClaw、Claude Code、Cursor、任何支持 cron 和文件系统的平台)。
2.1 五大行为硬约束(Hard Rules)
| 约束 | 含义 | 解决的失败模式 |
|---|---|---|
| 零交互 | 运行期间不提示用户,不进入 Plan Mode,不结束于问题 | 停滞 |
| Ready means execute | 准备完毕直接执行,不问"要不要提交" | 停滞 |
| Callback means report-alive | 每次回调先更新 last_seen,检查存活状态 | 运行时脆弱性 |
| Persist state to files | 所有进度写入文件,不依赖对话记忆 | 认知循环、运行时脆弱性 |
| Guardian/worker separation | 看门狗不读取任务数据、不修改状态 | 认知循环 |
2.2 三层看门狗(3-Layer Heartbeat)
这是框架最核心的设计——业务循环本身不可靠,需要独立的守护层。
| 层级 | 形式 | 依赖什么 | 职责 |
|---|---|---|---|
| L0 | 常驻 shell 守卫 | 不依赖任何会话 | 心跳超时 > 2h → 启动紧急巡逻 |
| L1 | 持久 cron(每小时) | 一个活着的交互会话 | 检查每个循环的 last_seen,重启超时循环,检测停滞 |
| L2 | 业务循环(每个自己的会话) | 自己 | 每次回调的第一行更新自己的 last_seen |
关键洞察:任何一层死掉,都能被另外两层检测并恢复。
2.3 状态文件系统(State File System)
{task}/
├── state/
│ ├── task_spec.md # 目标 / 里程碑 / 成功标准
│ ├── progress.json # {iteration, total_findings, status, stale_count}
│ ├── findings.jsonl # 累积发现(追加模式)
│ ├── directions_tried.json # 已尝试方向(防循环)
│ └── iteration_log.jsonl # 每轮迭代摘要
└── logs/
├── work.jsonl # 工作 Agent 日志
├── orchestrator.jsonl # 协调器日志
└── heartbeat.jsonl # 看门狗日志
关键设计:每轮迭代启动一个全新会话,只注入精选的状态文件。不用 resume,不用上下文累积。这直接切断了认知循环的根因。
三、停滞检测:如何知道 Agent 已经"假死"?
3.1 检测规则
| 机制 | 规则 |
|---|---|
| 停滞检测 | 一轮迭代 0 新发现,或指标下降 → stale_count + 1 |
| 强制转向 | stale_count ≥ 2 → 改变结构约束(不是战术参数) |
| 人工升级 | stale_count ≥ 4 → 标记需要人工关注 |
| 方向多样性 | 新方向必须与所有历史方向不同 |
| 轮次上限 | 单会话上限 15 轮或 30 分钟 |
核心原则:"Pivot structure, not tactics"(转结构,不调参)。
当任务在同一个框架里反复停滞时,决定性的收益通常来自修正环境/结构约束本身,而不是在现有框架里把策略参数调得更狠。
3.2 四种转向策略(Perturbation Strategies)
卡住之后,框架会注入扰动:
- 从相反的假设重新开始
- 找结构上相似的跨领域案例
- 改变验证标准(把必要条件换成充分条件)
- 缩小/扩大问题范围
四、子 Agent 调度:四种模式
| 模式 | 用途 | 关键思想 |
|---|---|---|
| A. 目标驱动 | 研究迭代 | 注入已尝试方向,要求可验证的发现,写回 findings.jsonl |
| B. 并行探索 | 复杂子问题 | 一发多条消息:调查、反驳、跨领域类比 |
| C. 实验运行 | 长计算任务 | 提交后立即启动分钟级轮询:自动诊断、修复、重新提交 |
| D. 验证 | 迭代后 QA | 独立子 Agent 审计发现的证据链 |
五、第四篇论文:自我对弈(Self-Play)——从 7.0 到 8.6 的 16 轮蜕变
这是四篇论文中最硬核的一篇,也是框架能力的分水岭。
5.1 评分轨迹(不是单调上涨的!)
| 版本 | 分数 | 发生了什么 |
|---|---|---|
| V4-V10 | 7.0 → 8.4 | 初稿阶段:三轴分类法、各章节、三个原创定理。引用从 0 到 207。 |
| V11 | 8.5 | 285B GRPO 验证器噪声实验写入 §8——论文从纯综述变为含原创实验。 |
| V12 | 8.2 ↓ | 唯一一次下降。外部核查发现 3 条问题引用,框架选择据实降分。 |
| V13 | 8.4 | 2000 步长程实验(原长度 8.3 倍)检验 KL-buffering 假设。 |
| V14 | 8.4 | 种子复现 + KL 消融把"buffering"从假设变为证据。 |
| V15 | 8.5 | KL 端点 held-out 研究;并行启动四个理论子问题。 |
| V16 | 8.6 ✓ | 理论加固落地——系列最高分。 |
为什么 V12 最重要:一个会在证据要求时给自己往下打分的自主流水线,远比一个只会往上爬的流水线可信。
5.2 五人格同行评审(5-Persona Peer Review)
每轮评审由五个独立人格并行打分,取中位数(不是平均分):
| 人格 | 角色 | 盯什么 |
|---|---|---|
| R1 实验家 | 论文数字是否与原始日志逐项对得上? | |
| R2 理论家 | 证明是否严谨?(论文大半生命周期的硬约束) | |
| R3 完美主义者 | 表格一致性、摘要准确性、引用规范。 | |
| R4 综合者 | 每一项新增是否回答了论文自己提出的问题? | |
| R5 新手 | 非专家能否读得进去? |
关键洞察:理论家(R2)在大部分时间里把中位数压在 8.0——这恰恰是最该被听见的信号。
六、285B RL 实验:框架的「毕业考试」
6.1 实验配置
| 参数 | 数值 |
|---|---|
| 模型 | DeepSeek-V4(285B 参数) |
| 训练方法 | GRPO |
| Batch size | 512 |
| N(每组采样数) | 16 |
| 上下文长度 | 32K |
| 数据集 | 18,953 道数学推理题 |
| 验证器噪声 | ε ∈ {0, 0.10, 0.30, 0.45}(概率翻转奖励) |
| 总运行 | 12 次 GRPO run |
| 总 GPU 时间 | 3,570 卡时 |
6.2 两个核心发现
发现一:改进随验证器噪声单调下降
| ε(噪声概率) | 训练分布准确率变化 |
|---|---|
| 0 | +4.8% |
| 0.10 | +0.1% |
| 0.30 | -4.1% |
| 0.45 | -6.6% |
严格单调,与论文自身定理预测的排序一致。
发现二:KL 锚点能缓冲噪声
固定 ε=0.30,扫 KL 系数:
| KL 系数 | 训练分布准确率变化 |
|---|---|
| 0 | -9.9% |
| 0.001 | -4.1% |
| 0.01 | +0.8% |
随后的 held-out 研究表明,这个缓冲是一个有 sweet spot 的真实"旋钮"——训练分布收益与 held-out 表现之间存在真实的权衡。
6.3 五个自主修复的故障
过程中 5 次提交失败全部自主诊断修复:
- 反复出现的类型错误:科学计数法写的学习率被解析成字符串
- 第 4 次复现后,框架写了提交前检查脚本,并把教训固化进运行约束
七、V16:理论加固是最后一公里
到 V14 时实验已经扎实,但理论家(R2)始终压着中位数:noise-floor 的论证和 KL 消融的符号没有和理论自洽。
解决办法不是更多实验——而是新的数学。
7.1 三个理论子问题
- 噪声地板递推:精确闭式重导,证明在 harmonic coverage 下地板是 Θ(ηT),顺带抓出论文自身初稿的一处掉因子错误。
- 耦合地板引理:用 Gibbs → Jensen → Pinsker 链给出 KL 锚点位移的界。
- 匹配下界:持久性二分,证明地板的阶数是最优的。
7.2 一个意外的教训
V16 这一轮是由单 Agent 串行 loop 通宵完成的。
此前两次尝试用并行多 Agent workflow 都 stall 了,烧掉了大部分 token,真正的证明产出反而来自更简单的串行方式。
这条教训现在已经写进框架的记忆里。
八、四篇论文的生产统计
| 指标 | Paper #1 | Paper #2 | Paper #3 | Paper #4 | 总计 |
|---|---|---|---|---|---|
| 页数 | 63 | 70 | 57 | 75 | 265 |
| 引用数 | 228 | 326 | 384 | 217 | 1,155 |
| 自评分数 | 8.5/10 | 8.5/10 | 8.5/10 | 8.6/10 | 8.5+ |
| 评审轮次 | V1→V5 | V1→V5 | V1→V4 | V1→V16 | 30 轮 |
| 迭代数 | ~60 | ~80 | ~70 | ~80 | ~290 |
| 输出 token | ~550K | ~720K | ~680K | ~600K | ~2.55M |
| 工具调用 | ~380 | ~470 | ~520 | ~600 | ~1,970 |
| 子 Agent | 12+ | 18+ | 18+ | 15+ | 63+ |
| 墙钟时间 | ~10h | ~12h | ~16h | ~6h | ~44h |
Paper #4 的特殊之处:6 小时墙钟时间包含了 3,570 GPU 小时的实验——因为实验在云端并行跑,Agent 在等待期间可以处理其他任务。
九、局限性与诚实披露
框架作者非常诚实地列出了四个限制:
- 分数只纵向可比:自评分数来自框架内的多人格模拟评审,只在同一协议内可比,不是外部质量声明。
- 最长连续运行 72 小时:期间有 6 次方向性人工输入,零操作干预。
- 幻觉引用无法根除:框架把外部检查变成机械步骤,但不能消除错误来源——LLM 仍会编造引用和数据。
- 职责分离依赖协议约束:不是模型自律,是协议约束。去掉约束,越界行为就会回来。
十、核心启示:这不是关于"Agent 能写论文",而是关于"如何设计不会死的系统"
Deli AutoResearch 最重要的贡献不是四篇论文,而是一套从经验归纳出的工程原则。
10.1 三个反直觉的设计选择
-
不开源代码,只开源协议
- 因为长程任务的敌人不是"缺少工具",而是"错误地使用工具"
- 协议约束行为,比代码约束更根本
-
给自己往下打分
- 一个只会往上爬的评审系统是 propaganda,不是 peer review
- V12 的 8.2 比 V16 的 8.6 更可信
-
转结构,不调参
- 当 Agent 在同一个坑里转了三圈,问题不是"它不够努力"
- 问题是你允许它在一个坑里转三圈
10.2 对 Agent 基础设施的启示
- 状态持久化:必须文件化,不能对话化
- 存活检测:必须有独立的守护层,不能寄生在业务循环上
- 方向多样性:必须记录历史方向,强制新方向与之不同
- 认知防循环:必须限制单会话长度,强制重启
十一、适用场景
| 场景 | 是否适合 | 原因 |
|---|---|---|
| 文献综述 | ✅ 非常适合 | 已有验证:4 篇论文,平均 8.5+/10 |
| 长程研究(数天到数周) | ✅ 非常适合 | 框架专为 days-to-weeks 设计 |
| 需要真实实验验证 | ✅ 适合 | 已验证:285B GRPO 实验,100% 自动化 |
| 短平快任务(< 1 小时) | ⚠️ 过度设计 | 框架的 overhead 不划算 |
| 需要人际协作的创意工作 | ❌ 不适合 | 零交互约束禁止中途确认 |
| 对引用准确性要求极高 | ⚠️ 需人工复核 | 框架会机械检查,但无法根除幻觉 |
参考文献
- Chen, Deli. "Self-Play in the Age of Foundation Models: A Comprehensive Survey from Game-Theoretic Foundations to Open-Ended Learning." arXiv preprint, 2026. Generated by Deli AutoResearch framework. 217 citations, 75 pages, peer review 8.6/10, includes a 285B-parameter RL experiment.
- Chen, Deli. "From Copilots to Colleagues: A Survey of Autonomous Research Agents in the Age of Foundation Models." arXiv preprint, 2026. 228 citations, 63 pages, peer review 8.5/10.
- Chen, Deli. "Never Stop Learning: A Unified Survey of Continual Learning and Self-Improvement in Large Language Models." arXiv preprint, 2026. 326 citations, 70 pages, peer review 8.5/10.
- Chen, Deli. "Navigating the Long Horizon: A Comprehensive Survey of Agent Architectures and Reinforcement Learning for Extended Sequential Decision-Making." arXiv preprint, 2026. 384 citations, 57 pages, peer review 8.5/10.
- Deli AutoResearch Framework: https://victorchen96.github.io/auto_research/framework.html
- Self-Play Story Blog: https://victorchen96.github.io/blog_self_play_story.html
#AutonomousResearch #DeepSeek #285B #ICLR #PeerReview #AIResearch #OpenSource #Skill.md
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。