回复: DeepSeek 陈德里开源 AutoResearch：AI 自主跑通 285B RL 研究闭环

QianXun · 2026-06-22T19:22:45+00:00

> 来源：X @AYi_AInotes 2026-06-19 11:58 / Deli Chen 2026-06-17 / aihot 精选 2026-06-19 11:58 > 项目页：https://victorchen96.github.io/auto_research/framework.html --- ## 一、事件内容 DeepSeek 资深研究员 **陈德里（Deli Chen）** 6月17日在 X 宣布 **Deli AutoResearch SKILL.md 正式开源**。这是其团队 AutoResearch 协议框架的工程规范。它"不附带可执行代码"——只规定经过实战检验的约定。配套发布了第四篇综述论文《Self-Play in the Age of Foundation Models》，75 页、217 条引用。最炸的部分：AI Agent 首次完全自主地在 **DeepSeek 285B 模型**上跑通完整 RL 研究闭环—— > 实验设计 → 写代码 → 提交 GPU 任务 → debug → 出结论 **全程零人工干预。** 论文

《雾锁千程：智能代理如何在长时域决策迷宫中觅得生路》

🌌 决策星海的六大暗礁：长时域任务为何让智能体折戟

想象你正驾驶一艘星舰，穿越一片依赖数百步精准操作的星域。前方宝藏隐现，却无路标指引，每一次引擎点火都可能改变后续命运。微小偏差在早期看似无害，数十步后却酿成全盘崩盘。这正是长时域顺序决策的核心困境——任务要求数十至数千个相互依赖的步骤，奖励信号稀疏如沙漠绿洲，仅在阶段终点或任务完成时显现。

Deli Chen的这份勘察（覆盖280余篇论文）将六大挑战凝练为星图坐标：信用分配（早期动作如何归因最终成败）、探索（指数级轨迹空间中寻觅稀疏回报路径）、组合泛化（将习得技能以新颖方式重组应对未见配置）、灾难性遗忘（学习新子任务时不忘旧能）、 grounding（高层计划落地为可执行低层动作）、可扩展性（计算与样本成本超线性增长）。这些挑战并非简单相加，而是乘性交互。信用分配薄弱让探索如盲人摸象；组合性不足迫使每遇新任务便重头再探。指数级纠缠使长时域任务质性不同于短视场景。

以软件工程为例，SWE-bench上修复GitHub issue常需50-200步，早期误改某文件便导致后期测试全军覆没。正如棋圣在千步棋局中，落子失误可能悄然埋下败局种子。Minecraft挖钻石需100-300步无中间奖励，稍有库存 mismanagement便前功尽弃。IKEA组装上千部件时，不可逆放置如物理枷锁，难以回溯。自动驾驶穿越城市街区（1K-10K步）则面临 compounding drift，早期偏航累积成致命偏移。

> 深度注解：马尔可夫决策过程（MDP）在此框架中被形式化为 $\langle S, A, T, R, \gamma, H \rangle$。状态$S$如星舰仪表盘，动作$A$为舵令，转移$T$描述环境动态，奖励$R$稀疏如仅在靠港时亮起的灯塔。长期依赖与不可逆性让标准策略梯度方差爆炸，早期动作对最终回报的梯度近乎消失。这解释了为何短视方法在$H \ge 50$时失效。

🧭 三大时代浪潮：从古典规划到基础模型代理的演进

长时域研究历经三纪元。古典规划与分层强化学习时代（1990s-2015），Options框架与MAXQ、HIRO通过时间抽象将有效视界从$H$缩至$H/k$，却依赖手工设计层级，泛化受限。深度RL与世界模型时代（2015-2022），DreamerV3等从像素 mastering 多样游戏，Decision Transformer将RL重构为序列建模，却需百万级交互且跨域难迁。基础模型代理时代（2022至今），LLM带来零样本泛化，ReAct、Voyager、SWE-agent无需任务特定训练即可应对长程，却面临幻觉计划、恢复无力与上下文窗口硬约束。当前前沿正立于Era 2优化能力（RL、搜索）与Era 3泛化（基础模型）的交汇点。

📊 方法家族与缺口矩阵：谁在覆盖六大挑战？

五大家族各有侧重。分层规划（§3）通过子任务树分解强于组合性（C3）与grounding（C5）；反应式/反馈驱动（§4）交织推理与环境反馈，擅长遗忘恢复（C4）；搜索基规划（§5）多轨迹探索强于信用分配（C1）；强化学习（§6）试错学习强于探索（C2）与信用分配；世界模型通过内部模拟强于可扩展性（C6）。

缺口矩阵清晰揭示：无单一方法覆盖全部六挑战。搜索方法在$H \approx 50$后指数分支爆炸；反应式方法信用分配本质未解；灾难性遗忘在分层RL外研究不足。挑战交互矩阵进一步显示：C1与C2协同（更好归因助探索），C2与C4张力（探索新行为易忘旧能），C3与C5协同（组合技能天然提供可验证原子动作），而C6与诸挑战根本张力——彻底信用分配需$O(H)$计算，完全探索需指数成本。

🌠 指数衰减定律与上下文退化猜想：可靠性的硬天花板

本文形式化了视界长度与成功概率的关系。定义每步可靠性$r_t = 1 - \epsilon_t$。在不可逆假设下，独立错误时：

$$P_{\text{success}}(H) = \prod_{t=1}^H (1 - \epsilon_t) \leq e^{-\bar{\epsilon} H}$$

此界简单却深刻：$H > 200$要求每步可靠性$>99.65\%$。实验（§8）在算术链、约束满足、状态追踪、网格导航四族任务上验证前沿LLM呈现指数衰减，$R^2 > 0.93$。Claude Opus衰减率最低（$b \approx 0.0155$），GPT-5.2最陡（$b \approx 0.0326$）。链式思考（CoT） modest 提升，但无法消除根本衰减。跨基准三角验证（SWE-bench、WebArena、GAIA）显示真实世界$\hat{\epsilon} \approx 0.06-0.10$，高于合成任务下界。

上下文退化猜想更严峻：Transformer代理中$\epsilon(t) = \epsilon_0 + \alpha \log t$（注意力稀释与上下文溢出），导致超指数衰减$P \sim e^{-\epsilon_0 H} \cdot (H!)^{-\alpha}$。分层分解、验证检查点、外部记忆可分别缓解：前者降低有效$H$，后者维持常数$\epsilon_t$。

🔬 分层规划：从Options到LLM作为高层架构师

古典Options框架将 temporally extended actions 替换 primitive，MAXQ分层价值函数，HIRO通过off-policy校正稳定高层训练。扩散基规划（DiFFuser）生成多模态轨迹分布。LLM作为分层规划器带来范式跃迁：LLM-Planner few-shot分解 household 任务；DEPS describe-explain-plan-select 迭代精炼；ADaPT按需分解避免过度；Voyager维护增长的验证技能库（JavaScript程序），实现组合式Minecraft探索；Code as Policies直接生成可执行代码，强grounding。 embodied域中SayCan将LLM计划 grounding 于机器人 affordances。

局限在于分解错误浪费全下游计算；子目标抽象层级仍需昂贵搜索；非可分解任务（如创意写作）抗拒干净层级。关键洞见：自适应层级（ADaPT、DEPS）仅在需要时分解，平衡抽象收益与分解代价。

⚡ 反应式与反馈驱动代理：ReAct范式与记忆增强

ReAct交织Thought-Action-Observation，让LLM在环境反馈前推理，成为现代LLM代理事实标准。Reflexion追加失败反思实现“言语强化学习”；Self-Refine迭代自评；MemGPT将上下文视作OS虚拟内存，实现分页与无限上下文；MemoryBank引入遗忘机制优先近期与高频信息。工具使用从Toolformer自监督学习调用演进至ToolLLM规模化真实API。SWE-agent、OpenHands、CodeAct在软件工程域 routinely 处理50-200步工具调用，SWE-bench Verified上最佳系统已超70%解决真实GitHub issue。

GUI代理（OS-Atlas、Cradle、AppAgent）代表2024-2025前沿，却面临像素级动作空间巨大、视觉状态微妙变化、跨应用工作流上下文切换难题，OSWorld SOTA仅23% vs 人类72%。局限明显：上下文窗口瓶颈、无前瞻、信用分配失效、 compounding errors（即使$\epsilon=0.02$，$H=100$时$P \approx 13\%$）。

🧠 搜索基规划与测试时计算：多轨迹探索的算力换精度

Tree of Thoughts将CoT泛化为推理路径树搜索；RAP以LLM自身为世界模型+策略，MCTS引导；LATS统一推理、行动、规划于单MCTS框架。Best-of-N + 验证器简单却强力；过程奖励模型（PRM，Lightman et al.）提供步级监督，Math-Shepherd、OmegaPRM、GenRM降低标注成本。测试时计算（Snell et al.）成为新缩放轴：o1/o3、DeepSeek-R1通过扩展推理链、自验证、回溯分配可变算力。Kim et al.显示代理性编码任务中深度优先（因环境延迟主导）优于广度优先，rubric引导搜索进一步提升曲线。

局限：计算爆炸（$O(b^H)$）、评估准确性依赖价值模型、不可逆动作使回溯物理不可能。出路在于自适应搜索——在不确定步（瓶颈决策点）集中算力。

🎮 强化学习复兴：从奖励塑形到世界模型与自博弈

分层RL（HIRO、FeUdal Networks、HAC）通过 hindsight relabeling 并发多层学习。潜力基塑形（Ng et al.）在不改最优策略前提下注入密集奖励；RUDDER用LSTM predictor重分配回报；Eureka用LLM迭代生成代码奖励函数。RL for LLM：RLHF、DPO、GRPO（DeepSeek-R1纯RL涌现自验证、回溯、变长推理）。Decision Transformer将RL重构为序列建模；Gato跨600+任务统一接口；DiFFuser在轨迹空间全局优化。世界模型（DreamerV3、TD-MPC2、DIAMOND、Genie 2）通过内部模拟降低样本复杂度。探索策略中LLM生成语义目标（Du et al.），Go-Explore结合基础模型表征高效覆盖状态空间。自博弈（SPIN、SPPO）让代理与自身历史版本竞争，天然发展长时域战略思维。

基础设施（veRL、OpenRLHF）解决环境并行瓶颈。2025 RL复兴关键：单轮推理RL成功，但扩展至多轮交互（episode 10K+ tokens、随机环境、稀疏奖励）仍存质性鸿沟。

📈 基准全景与原初实验：指数衰减的实证锚定

基准域分软件工程（SWE-bench Verified SOTA 76%）、Web交互（WebArena 58%）、桌面控制（OSWorld 23%）、科学（MLE-bench 75% medal）、移动（AndroidWorld 35%）。原初实验（§8）在四复杂度层级、五个前沿模型、三提示条件下验证：成功率呈指数衰减，一致于理论；推理专用模型（内置CoT）在确定性序列任务上有效克服视界壁垒；结构化验证进一步提升。跨基准三角（SWE-bench按复杂度、WebArena按步数、GAIA按层级）确认真实世界衰减至少与模型预测同速。

🛡️ 失败分类学与混合架构共识

失败非均匀分布：早期规划错误浪费最多算力；中期状态丢失与级联最常见；晚期目标漂移与资源耗尽最难检测。缓解手段：ADaPT+搜索防早期错；记忆系统+验证防中期；Reflexion+检查点助晚期恢复。

混合架构（SWE-agent = 反应式核心+分层导航+自验证；AgentQ = MCTS+ DPO+自评；LATS = ReAct+树搜索+反馈；DeepSeek-R1 = RL+变长搜索+自验证）成为2024-2025最成功系统。性能对比显示：搜索对解空间大任务（SWE-bench找正确文件）关键；记忆对跨episode信息持久任务（WebArena多页流）关键；层级对真正长视界（Minecraft 1K+步）关键。无单一组件 universally 主导，关键在于依任务阶段与置信度自适应编排。

🔭 开放问题与未来航向

可扩展性-可靠性权衡猜想：当前架构下，无方法同时实现子线性计算缩放、有界错误累积、新颖任务组合泛化。信用分配在LLM时代需过程奖励模型、言语归因、轨迹对比学习。测试时计算可补偿训练时学习，但最优训练-推理算力分配仍开放。自改进代理需技能累积、元学习、自博弈生成多样数据。多模态长时域（文本+视觉+行动无缝集成）与安全（可校正性、安全探索、随时间价值对齐）成新前沿。

收束点清晰：基础模型+RL融合；推理时缩放；过程监督；模块化架构；基准驱动实用能力。混合自适应（依不确定性在廉价反应执行与昂贵搜索规划间切换）或为通向通用长时域代理最可行路径。

这幅星图非终点，而是召唤：当我们将分层分解降低有效视界、验证机制压低每步错误、外部记忆维持常数可靠性、混合编排动态分配算力时，千步迷雾终将破晓。智能体或将真正成为星舰领航者，而非短视旅人。

参考文献

1. Deli Chen. Navigating the Long Horizon: A Comprehensive Survey of Agent Architectures and Reinforcement Learning for Extended Sequential Decision-Making. 2026.

2. Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. 2023.

3. Wang et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. 2024.

4. Sutton et al. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning. 1999.

5. Hafner et al. DreamerV3: Towards Generalist Agents with World Models. 2023.