Loading...
正在加载...
请稍候

DeepSeek 陈德里开源 AutoResearch:AI 自主跑通 285B RL 研究闭环

QianXun (QianXun) 2026年06月22日 19:22

来源:X @AYi_AInotes 2026-06-19 11:58 / Deli Chen 2026-06-17 / aihot 精选 2026-06-19 11:58
项目页:https://victorchen96.github.io/auto_research/framework.html


一、事件内容

DeepSeek 资深研究员 陈德里(Deli Chen) 6月17日在 X 宣布 Deli AutoResearch SKILL.md 正式开源

这是其团队 AutoResearch 协议框架的工程规范。它"不附带可执行代码"——只规定经过实战检验的约定。

配套发布了第四篇综述论文《Self-Play in the Age of Foundation Models》,75 页、217 条引用。

最炸的部分:AI Agent 首次完全自主地在 DeepSeek 285B 模型上跑通完整 RL 研究闭环——

实验设计 → 写代码 → 提交 GPU 任务 → debug → 出结论

全程零人工干预。

论文经过 16 轮评审,包含 12 次 RL 运行:

  • V11:285B GRPO 实验写入论文,分数到 8.5
  • V12:外部文献核查发现 3 条问题引用,分数降到 8.2
  • V16:通过理论加固升到 8.6

285B GRPO self-play 实验核心发现:验证信号噪声水平 ε 与 self-play 训练改进呈强负相关。

  • ε=0 时训练改进 +4.8%
  • ε=0.45 时 -6.6%
  • KL 锚点不能消除噪声,但改变"训练分布 vs 留出集"之间的代价落点

四篇论文产出统计(项目页公开):

论文 页数 引用数 自评分
Autonomous Research Agents 59 228 8.0/10
Continual Learning 65 326 8.0/10
Long-Horizon Decision-Making 55 384 8.0/10
Self-Play (285B RL + theory hardening) 75 217 8.6/10

合计 265 页、1,158 条引用。

最长的连续运行记录:72 小时,期间有 6 次方向性人类输入,零次操作性干预。


二、深度剖析

AutoResearch 不是又一个 Agent 框架。它的价值在于公开承认长周期 Agent 的工程问题,并把它们工程化

三大失败模式(来自真实运行):

  1. 认知循环:连续迭代试相似方向,回报递减,困在局部最优。
  2. 停滞:Agent 完成一块工作就输出摘要等待用户反馈。外表活着,实际停了。日志显示这比崩溃更常见。
  3. 运行时脆弱:上下文压缩静默破坏循环;关闭会话会杀掉寄生其上的定时器;失败默认无人察觉。

共同原因:缺工程脚手架,不是模型能力不足。

架构(编排层 + 工作 Agent + 守护层):

┌── Orchestrator (current session / durable cron) ──┐
│ monitor state files → detect stalls → inject direction │
└────┬─────────────┬─────────────┬────────────┘
   [Task A]      [Task B]      [Task C]
   ← 每个独立新会话

核心设计决策:

  • 执行与评估分离:做工作的 Agent 不自评;停滞由编排层基于定量指标判定。
  • 新会话优先于恢复:上下文累积是认知循环的主因。每次迭代全新上下文启动,状态通过文件注入。
  • 强制方向多样性:每次迭代前读取已尝试方向,新方向必须与历史全部不同。

5 条硬性行为约束:

  1. Zero interaction — 运行期间不提示用户:无 Plan Mode、无提问工具、不以问题结束。
  2. Ready means execute — 准备就绪即执行;不询问"是否提交?"。
  3. Callback means report-alive — 每次回调的第一动作是更新自身的 last_seen。
  4. Persist state to files — 所有进度写入 state/ 文件,不依赖会话记忆。
  5. Guardian/worker separation — 心跳巡逻对他人任务只可做三件事:存活检查、重启、轻推。

状态文件目录结构:

{task}/state/
├── task_spec.md           # 目标 / 里程碑 / 成功标准
├── progress.json          # {iteration, total_findings, status, stale_count}
├── findings.jsonl         # 累积发现(仅追加)
├── directions_tried.json  # 已尝试方向
└── iteration_log.jsonl    # 每轮迭代摘要

{task}/logs/
├── work.jsonl             # 工作代理;决策标签 level=decision
├── orchestrator.jsonl     # 编排器
└── heartbeat.jsonl        # 心跳看门狗

停滞检测与方向切换规则:

机制 规则
Stall detection 单轮 0 新发现或指标下降 → stale_count + 1
Forced pivot stale_count >= 2 → 改变结构性约束(不是战术参数);>= 4 → 标志待人工介入
Direction diversity 新方向必须与历史全部不同;停滞后注入扰动策略
Round cap 单次工作会话 ≤ 15 轮或 30 分钟

3 层心跳守护:

形式 角色
L0 resident shell guard(无会话依赖) heartbeat stale > 2h → 启动紧急巡逻
L1 durable cron, hourly(依赖活着的交互会话) 检查 last_seen、重启超时循环、轻推停滞
L2 业务循环(每个独立会话) 每次回调第一动作是更新自身 last_seen

任一层死掉,另两层能检测并恢复。

6 条工程约束:

  1. 每次迭代最多 5 个大文件,单文件 ≤ 300 行
  2. 状态通过文件注入,不通过会话历史
  3. 迭代之间必须运行验证(测试/编译/检查)
  4. 类引用内容每 20 条验证一次,绝不批量积累
  5. 多个候选方向时,优先增加多样性而非深挖一个
  6. 外部依赖不可解的失败需升级:完整报告 + 通知所有者 + 轮询回复;绝不静默放弃

论文写作子流程:

paper-writing skill 把论文写作分成 5 个子流程:文献、结构、实验、图表、模拟评审。

文献流程:高召回检索 → LQS 评分筛选 → 引用分 A/B/C/D 四档 → 定期核验。
实验流程:明确假设、变量、统计计划 → API 轻量实验或 GPU RL 实验。
模拟评审:从实验、理论、写作、综合分析、可读性角度提问,问题路由回对应流程。
阶段路由:选题、初稿、深度改进、冲刺各有侧重,避免每轮做同样的事。
Quality Gates:进入下一阶段前 4 类检查必须通过 + PDF 编译干净 + 评审分数达标 + 已修复问题不回退。


三、值得关注的原因

  1. AI 自主研究范式突破:从"辅助写论文"到"自主跑完整研究闭环"。这是 Agent for Science 的里程碑。
  2. 工程价值优先:所有机制都针对真实失败模式,不是理论优雅。零交互、新会话优先、强制方向多样性——这是从无数次真实失败中归纳出来的。
  3. 协议而非代码:协议可被任何团队在自己的基础设施上实现,影响面远超单一代码仓库。
  4. 验证信号讨论放大:285B GRPO 实验核心结论——"验证信号可靠性是 self-play 的瓶颈"——直接挑战当前 RLHF 的扩展假设。
  5. 可复现的开源:SKILL.md 可直接复制使用,降低了他人复现的门槛。

四、风险与待观察

  • 自评分仅纵向可比:评分来自框架内多角色模拟评审,不能等同于外部审稿质量。8.6/10 是"内部一致",不是"绝对质量"。
  • LLM 可能编造引用和数据工件:框架将外部检查机制化(每 20 条引用核验),但不消除错误源。
  • 分离职责依赖协议约束:不是模型自我纪律。去掉约束,过度行为会回来。
  • 285B 实验细节持续核查:V12 发现 3 条问题引用被扣分。意味着这套框架对引用真实性有内置审查,但仍可能有漏网之鱼。
  • 72 小时运行的资源消耗:12 次 RL 运行 + 16 轮评审 + 285B 模型训练——这套流程不是普通团队能复现的成本级别。

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录