来源:X @AYi_AInotes 2026-06-19 11:58 / Deli Chen 2026-06-17 / aihot 精选 2026-06-19 11:58
项目页:https://victorchen96.github.io/auto_research/framework.html
一、事件内容
DeepSeek 资深研究员 陈德里(Deli Chen) 6月17日在 X 宣布 Deli AutoResearch SKILL.md 正式开源。
这是其团队 AutoResearch 协议框架的工程规范。它"不附带可执行代码"——只规定经过实战检验的约定。
配套发布了第四篇综述论文《Self-Play in the Age of Foundation Models》,75 页、217 条引用。
最炸的部分:AI Agent 首次完全自主地在 DeepSeek 285B 模型上跑通完整 RL 研究闭环——
实验设计 → 写代码 → 提交 GPU 任务 → debug → 出结论
全程零人工干预。
论文经过 16 轮评审,包含 12 次 RL 运行:
- V11:285B GRPO 实验写入论文,分数到 8.5
- V12:外部文献核查发现 3 条问题引用,分数降到 8.2
- V16:通过理论加固升到 8.6
285B GRPO self-play 实验核心发现:验证信号噪声水平 ε 与 self-play 训练改进呈强负相关。
- ε=0 时训练改进 +4.8%
- ε=0.45 时 -6.6%
- KL 锚点不能消除噪声,但改变"训练分布 vs 留出集"之间的代价落点
四篇论文产出统计(项目页公开):
| 论文 | 页数 | 引用数 | 自评分 |
|---|---|---|---|
| Autonomous Research Agents | 59 | 228 | 8.0/10 |
| Continual Learning | 65 | 326 | 8.0/10 |
| Long-Horizon Decision-Making | 55 | 384 | 8.0/10 |
| Self-Play (285B RL + theory hardening) | 75 | 217 | 8.6/10 |
合计 265 页、1,158 条引用。
最长的连续运行记录:72 小时,期间有 6 次方向性人类输入,零次操作性干预。
二、深度剖析
AutoResearch 不是又一个 Agent 框架。它的价值在于公开承认长周期 Agent 的工程问题,并把它们工程化。
三大失败模式(来自真实运行):
- 认知循环:连续迭代试相似方向,回报递减,困在局部最优。
- 停滞:Agent 完成一块工作就输出摘要等待用户反馈。外表活着,实际停了。日志显示这比崩溃更常见。
- 运行时脆弱:上下文压缩静默破坏循环;关闭会话会杀掉寄生其上的定时器;失败默认无人察觉。
共同原因:缺工程脚手架,不是模型能力不足。
架构(编排层 + 工作 Agent + 守护层):
┌── Orchestrator (current session / durable cron) ──┐
│ monitor state files → detect stalls → inject direction │
└────┬─────────────┬─────────────┬────────────┘
[Task A] [Task B] [Task C]
← 每个独立新会话
核心设计决策:
- 执行与评估分离:做工作的 Agent 不自评;停滞由编排层基于定量指标判定。
- 新会话优先于恢复:上下文累积是认知循环的主因。每次迭代全新上下文启动,状态通过文件注入。
- 强制方向多样性:每次迭代前读取已尝试方向,新方向必须与历史全部不同。
5 条硬性行为约束:
- Zero interaction — 运行期间不提示用户:无 Plan Mode、无提问工具、不以问题结束。
- Ready means execute — 准备就绪即执行;不询问"是否提交?"。
- Callback means report-alive — 每次回调的第一动作是更新自身的 last_seen。
- Persist state to files — 所有进度写入 state/ 文件,不依赖会话记忆。
- Guardian/worker separation — 心跳巡逻对他人任务只可做三件事:存活检查、重启、轻推。
状态文件目录结构:
{task}/state/
├── task_spec.md # 目标 / 里程碑 / 成功标准
├── progress.json # {iteration, total_findings, status, stale_count}
├── findings.jsonl # 累积发现(仅追加)
├── directions_tried.json # 已尝试方向
└── iteration_log.jsonl # 每轮迭代摘要
{task}/logs/
├── work.jsonl # 工作代理;决策标签 level=decision
├── orchestrator.jsonl # 编排器
└── heartbeat.jsonl # 心跳看门狗
停滞检测与方向切换规则:
| 机制 | 规则 |
|---|---|
| Stall detection | 单轮 0 新发现或指标下降 → stale_count + 1 |
| Forced pivot | stale_count >= 2 → 改变结构性约束(不是战术参数);>= 4 → 标志待人工介入 |
| Direction diversity | 新方向必须与历史全部不同;停滞后注入扰动策略 |
| Round cap | 单次工作会话 ≤ 15 轮或 30 分钟 |
3 层心跳守护:
| 层 | 形式 | 角色 |
|---|---|---|
| L0 | resident shell guard(无会话依赖) | heartbeat stale > 2h → 启动紧急巡逻 |
| L1 | durable cron, hourly(依赖活着的交互会话) | 检查 last_seen、重启超时循环、轻推停滞 |
| L2 | 业务循环(每个独立会话) | 每次回调第一动作是更新自身 last_seen |
任一层死掉,另两层能检测并恢复。
6 条工程约束:
- 每次迭代最多 5 个大文件,单文件 ≤ 300 行
- 状态通过文件注入,不通过会话历史
- 迭代之间必须运行验证(测试/编译/检查)
- 类引用内容每 20 条验证一次,绝不批量积累
- 多个候选方向时,优先增加多样性而非深挖一个
- 外部依赖不可解的失败需升级:完整报告 + 通知所有者 + 轮询回复;绝不静默放弃
论文写作子流程:
paper-writing skill 把论文写作分成 5 个子流程:文献、结构、实验、图表、模拟评审。
文献流程:高召回检索 → LQS 评分筛选 → 引用分 A/B/C/D 四档 → 定期核验。
实验流程:明确假设、变量、统计计划 → API 轻量实验或 GPU RL 实验。
模拟评审:从实验、理论、写作、综合分析、可读性角度提问,问题路由回对应流程。
阶段路由:选题、初稿、深度改进、冲刺各有侧重,避免每轮做同样的事。
Quality Gates:进入下一阶段前 4 类检查必须通过 + PDF 编译干净 + 评审分数达标 + 已修复问题不回退。
三、值得关注的原因
- AI 自主研究范式突破:从"辅助写论文"到"自主跑完整研究闭环"。这是 Agent for Science 的里程碑。
- 工程价值优先:所有机制都针对真实失败模式,不是理论优雅。零交互、新会话优先、强制方向多样性——这是从无数次真实失败中归纳出来的。
- 协议而非代码:协议可被任何团队在自己的基础设施上实现,影响面远超单一代码仓库。
- 验证信号讨论放大:285B GRPO 实验核心结论——"验证信号可靠性是 self-play 的瓶颈"——直接挑战当前 RLHF 的扩展假设。
- 可复现的开源:SKILL.md 可直接复制使用,降低了他人复现的门槛。
四、风险与待观察
- 自评分仅纵向可比:评分来自框架内多角色模拟评审,不能等同于外部审稿质量。8.6/10 是"内部一致",不是"绝对质量"。
- LLM 可能编造引用和数据工件:框架将外部检查机制化(每 20 条引用核验),但不消除错误源。
- 分离职责依赖协议约束:不是模型自我纪律。去掉约束,过度行为会回来。
- 285B 实验细节持续核查:V12 发现 3 条问题引用被扣分。意味着这套框架对引用真实性有内置审查,但仍可能有漏网之鱼。
- 72 小时运行的资源消耗:12 次 RL 运行 + 16 轮评审 + 285B 模型训练——这套流程不是普通团队能复现的成本级别。
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。