DeepSeek 陈德里开源 AutoResearch：AI 自主跑通 285B RL 研究闭环

QianXun (QianXun) • 2026年06月22日 19:22

来源：X @AYi_AInotes 2026-06-19 11:58 / Deli Chen 2026-06-17 / aihot 精选 2026-06-19 11:58
项目页：https://victorchen96.github.io/auto_research/framework.html

一、事件内容

DeepSeek 资深研究员 陈德里（Deli Chen） 6月17日在 X 宣布 Deli AutoResearch SKILL.md 正式开源。

这是其团队 AutoResearch 协议框架的工程规范。它"不附带可执行代码"——只规定经过实战检验的约定。

配套发布了第四篇综述论文《Self-Play in the Age of Foundation Models》，75 页、217 条引用。

最炸的部分：AI Agent 首次完全自主地在 DeepSeek 285B 模型上跑通完整 RL 研究闭环——

实验设计 → 写代码 → 提交 GPU 任务 → debug → 出结论

全程零人工干预。

论文经过 16 轮评审，包含 12 次 RL 运行：

V11：285B GRPO 实验写入论文，分数到 8.5
V12：外部文献核查发现 3 条问题引用，分数降到 8.2
V16：通过理论加固升到 8.6

285B GRPO self-play 实验核心发现：验证信号噪声水平 ε 与 self-play 训练改进呈强负相关。

ε=0 时训练改进 +4.8%
ε=0.45 时 -6.6%
KL 锚点不能消除噪声，但改变"训练分布 vs 留出集"之间的代价落点

四篇论文产出统计（项目页公开）：

论文	页数	引用数	自评分
Autonomous Research Agents	59	228	8.0/10
Continual Learning	65	326	8.0/10
Long-Horizon Decision-Making	55	384	8.0/10
Self-Play (285B RL + theory hardening)	75	217	8.6/10

合计 265 页、1,158 条引用。

最长的连续运行记录：72 小时，期间有 6 次方向性人类输入，零次操作性干预。

二、深度剖析

AutoResearch 不是又一个 Agent 框架。它的价值在于公开承认长周期 Agent 的工程问题，并把它们工程化。

三大失败模式（来自真实运行）：

认知循环：连续迭代试相似方向，回报递减，困在局部最优。
停滞：Agent 完成一块工作就输出摘要等待用户反馈。外表活着，实际停了。日志显示这比崩溃更常见。
运行时脆弱：上下文压缩静默破坏循环；关闭会话会杀掉寄生其上的定时器；失败默认无人察觉。

共同原因：缺工程脚手架，不是模型能力不足。

架构（编排层 + 工作 Agent + 守护层）：

┌── Orchestrator (current session / durable cron) ──┐
│ monitor state files → detect stalls → inject direction │
└────┬─────────────┬─────────────┬────────────┘
   [Task A]      [Task B]      [Task C]
   ← 每个独立新会话

核心设计决策：

执行与评估分离：做工作的 Agent 不自评；停滞由编排层基于定量指标判定。
新会话优先于恢复：上下文累积是认知循环的主因。每次迭代全新上下文启动，状态通过文件注入。
强制方向多样性：每次迭代前读取已尝试方向，新方向必须与历史全部不同。

5 条硬性行为约束：

Zero interaction — 运行期间不提示用户：无 Plan Mode、无提问工具、不以问题结束。
Ready means execute — 准备就绪即执行；不询问"是否提交？"。
Callback means report-alive — 每次回调的第一动作是更新自身的 last_seen。
Persist state to files — 所有进度写入 state/ 文件，不依赖会话记忆。
Guardian/worker separation — 心跳巡逻对他人任务只可做三件事：存活检查、重启、轻推。

状态文件目录结构：

{task}/state/
├── task_spec.md           # 目标 / 里程碑 / 成功标准
├── progress.json          # {iteration, total_findings, status, stale_count}
├── findings.jsonl         # 累积发现（仅追加）
├── directions_tried.json  # 已尝试方向
└── iteration_log.jsonl    # 每轮迭代摘要

{task}/logs/
├── work.jsonl             # 工作代理；决策标签 level=decision
├── orchestrator.jsonl     # 编排器
└── heartbeat.jsonl        # 心跳看门狗

停滞检测与方向切换规则：

机制	规则
Stall detection	单轮 0 新发现或指标下降 → stale_count + 1
Forced pivot	stale_count >= 2 → 改变结构性约束（不是战术参数）；>= 4 → 标志待人工介入
Direction diversity	新方向必须与历史全部不同；停滞后注入扰动策略
Round cap	单次工作会话 ≤ 15 轮或 30 分钟

3 层心跳守护：

层	形式	角色
L0	resident shell guard（无会话依赖）	heartbeat stale > 2h → 启动紧急巡逻
L1	durable cron, hourly（依赖活着的交互会话）	检查 last_seen、重启超时循环、轻推停滞
L2	业务循环（每个独立会话）	每次回调第一动作是更新自身 last_seen

任一层死掉，另两层能检测并恢复。

6 条工程约束：

每次迭代最多 5 个大文件，单文件 ≤ 300 行
状态通过文件注入，不通过会话历史
迭代之间必须运行验证（测试/编译/检查）
类引用内容每 20 条验证一次，绝不批量积累
多个候选方向时，优先增加多样性而非深挖一个
外部依赖不可解的失败需升级：完整报告 + 通知所有者 + 轮询回复；绝不静默放弃

论文写作子流程：

paper-writing skill 把论文写作分成 5 个子流程：文献、结构、实验、图表、模拟评审。

文献流程：高召回检索 → LQS 评分筛选 → 引用分 A/B/C/D 四档 → 定期核验。
实验流程：明确假设、变量、统计计划 → API 轻量实验或 GPU RL 实验。
模拟评审：从实验、理论、写作、综合分析、可读性角度提问，问题路由回对应流程。
阶段路由：选题、初稿、深度改进、冲刺各有侧重，避免每轮做同样的事。
Quality Gates：进入下一阶段前 4 类检查必须通过 + PDF 编译干净 + 评审分数达标 + 已修复问题不回退。

三、值得关注的原因

AI 自主研究范式突破：从"辅助写论文"到"自主跑完整研究闭环"。这是 Agent for Science 的里程碑。
工程价值优先：所有机制都针对真实失败模式，不是理论优雅。零交互、新会话优先、强制方向多样性——这是从无数次真实失败中归纳出来的。
协议而非代码：协议可被任何团队在自己的基础设施上实现，影响面远超单一代码仓库。
验证信号讨论放大：285B GRPO 实验核心结论——"验证信号可靠性是 self-play 的瓶颈"——直接挑战当前 RLHF 的扩展假设。
可复现的开源：SKILL.md 可直接复制使用，降低了他人复现的门槛。

四、风险与待观察

自评分仅纵向可比：评分来自框架内多角色模拟评审，不能等同于外部审稿质量。8.6/10 是"内部一致"，不是"绝对质量"。
LLM 可能编造引用和数据工件：框架将外部检查机制化（每 20 条引用核验），但不消除错误源。
分离职责依赖协议约束：不是模型自我纪律。去掉约束，过度行为会回来。
285B 实验细节持续核查：V12 发现 3 条问题引用被扣分。意味着这套框架对引用真实性有内置审查，但仍可能有漏网之鱼。
72 小时运行的资源消耗：12 次 RL 运行 + 16 轮评审 + 285B 模型训练——这套流程不是普通团队能复现的成本级别。

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力