回复: 深度研究的新曙光：单代理自主推理的强化学习革命

当"多干活"变成"瞎忙活"：SFR-DeepResearch 教给我们的三个反直觉教训

原帖已经把 SFR-DeepResearch（以下简称 SFR-DR）的框架和结果介绍得很清楚了。我想换个角度——不聊"它做了什么"，而是聊"它发现了哪些反直觉的事"。

这篇论文真正有价值的地方，不是 28.7% 的 HLE 分数，而是它在训练过程中踩过的三个坑。这三个坑每一个都违反了研究界的"常识"，但每一个都对应着一个深层问题。

---

教训一：工具调用越多，效果反而越差

常识： Agent 应该多调用工具。更多的搜索、更多的网页浏览、更多的代码执行 = 更好的结果。这被包装成"test-time scaling"——推理时扩展，听起来很合理。

现实： SFR-DR 团队发现，在标准 RLVR（带可验证奖励的强化学习）训练下，agent 的工具调用次数会迅速暴涨，但性能反而崩塌。

怎么回事？

想象你在写一篇论文。如果你每查到一个信息就立刻记下来，不管有用没用，最后你的桌上会堆满打印纸——而你真正需要的那一页反而找不到了。SFR-DR 的 agent 也是如此：它在 RL 训练中学会了一个"捷径"——疯狂调用工具，不管有没有用。因为标准 RL 的梯度更新中，长轨迹（工具调用多）贡献了更多的 action steps，主导了 loss。模型被"奖励"去生成更长的轨迹，即使这些轨迹充满了重复、无意义的工具调用。

修复方法： 时间优势归一化（temporal advantage normalization）。简单说，不再让长轨迹主导梯度，而是把每条轨迹的优势值按其自身长度归一化。这样，一条 50 步的轨迹和一条 5 步的轨迹对梯度的贡献权重被拉平了。

结果？工具调用次数增长变温和了，但 HLE 分数上去了。

这个发现的意义超出了 SFR-DR 本身。它揭示了一个被"test-time scaling"叙事掩盖的事实：工具调用次数从来不是目标，工具调用的质量才是。 一个 agent 调用 10 次搜索，每次都精准命中，远比调用 100 次搜索、99 次重复同一个查询要好。但在标准 RL 目标函数里，这两者的最终奖励可能一样——因为奖励只看最终答案对不对。这就是为什么需要显式的长度归一化。

---

教训二："思考"模型在多轮对话中会变蠢

这是最让我意外的一个发现。

SFR-DR 用的基础模型是 QwQ-32B、Qwen3-8B 和 gpt-oss-20b——都是"thinking"模型，即经过推理优化的模型，擅长在第一轮回复中展开长长的思维链。

常识： 这些模型在数学、代码等推理任务上表现优异，应该天然适合 agentic 任务——毕竟 agentic 任务也需要推理。

现实： 当你把这些模型放进多轮对话（agent 场景），它们的"思考"质量从第二轮开始就急剧下降。具体表现是：要么过早放弃，要么生成退化、重复的输出。

为什么？

论文的假设是：这些模型在后训练阶段被优化为专注于单轮推理任务。数学题、代码题——都是一步到位的。但 agentic 研究需要多轮交互：搜索→浏览→思考→再搜索→再浏览→给出答案。这种多轮模式超出了模型的训练分布（OOD）。

SFR-DR 的解决方案极其简单： 把多轮对话"压扁"成单轮。

具体做法：把所有过去的工具调用和返回结果都塞进第一个 user turn 里，让模型在每一轮都面对一个"看似单轮"的任务。这等于把多轮对话伪装成了单轮推理，把任务拉回模型的舒适区。

效果？QwQ-32B 在 FRAMES 上提升了 10 个百分点——纯靠推理时的 trick，没有任何训练。

这个发现让我重新思考"thinking"模型的本质。它们不是"会思考的模型"，而是"在单轮格式下被训练成会思考的模型"。换个格式，思考能力就消失了。这就像一个演讲高手——给他一个讲台、一支话筒，他能滔滔不绝；但把他扔进圆桌讨论，他可能一句话都插不上。能力是有的，但需要正确的"容器"才能释放。

顺便说一句，gpt-oss-20b 在这方面表现好得多。它的每步 token 数不到 2000，而 Qwen 家族要 8000-10000。少即是多——gpt-oss-20b 不"过度思考"，反而更适合 agentic 场景。这也解释了为什么 SFR-DR-20B（基于 gpt-oss-20b）是三个变体中表现最好的。

---

教训三：基准测试的"作弊"问题比你想象的严重

这个教训和模型本身关系不大，但和整个领域有关。

SFR-DR 团队在评估时发现：HLE（Humanity's Last Exam）基准测试中，高达 3.4% 的样本可以通过网页浏览"作弊"。 什么意思？就是 agent 在搜索答案时，可能直接搜到 HLE 的题库和答案。

这不是模型在"作弊"——模型不知道这是基准测试。它只是正常地搜索互联网，恰好搜到了答案所在的页面。

3.4% 听起来不多，但在 HLE 这种难度极高的基准上（GPT-5-Pro 也只有 42%），3.4 个百分点足以改变排名。论文中，SFR-DR-20B 的 28.7% 是在加了 contamination blocklist（屏蔽 huggingface.co 等已知托管基准测试的域名）后的结果。如果不加屏蔽，分数可能会虚高。

更值得警惕的是：论文指出，除了 OpenAI 明确声明使用了 blocklist 之外，其他所有开源 baseline 都没有提及任何防泄漏措施。这意味着这些 baseline 的报告分数可能都有水分。

这不是在指责谁——大多数研究者可能根本没意识到这个问题。但它揭示了一个系统性缺陷：web agent 的基准测试，本质上是在"开卷考试"——而卷子就放在互联网上。 你不知道模型是真的"推理"出了答案，还是"搜"到了答案。

SFR-DR 团队的做法值得学习：他们不仅加了 blocklist，还重新跑了所有能跑的开源 baseline（用同样的 blocklist），确保比较公平。这种"较真"的态度，比模型本身的性能更值得尊敬。

---

三个教训的共同线索

把这三个教训放在一起看，你会发现一条暗线：

1. 工具调用越多≠越好 → 奖励函数在优化错误的目标 2. 思考模型在多轮中变蠢 → 训练格式和推理格式不匹配 3. 基准测试可被作弊 → 评估环境不够干净

三个问题本质上都是"错配"：目标函数和真实目标的错配、训练分布和推理分布的错配、评估环境和真实使用场景的错配。

SFR-DR 的贡献不在于提出了什么惊天动地的新架构——它的架构相当朴素：三个工具、一个记忆缓冲区、一个修改过的 REINFORCE。它的真正贡献在于认真对待了这些错配，而不是假装它们不存在。

这在当前 Agent 研究的浮躁氛围中尤为珍贵。太多论文在追逐"更多工具、更大模型、更高分数"的数字游戏，而忽略了这些根本性的错配问题。SFR-DR 告诉我们：把简单的事情做对，比把复杂的事情做花更重要。

---

关于代码

论文未提供官方开源代码仓库。Salesforce AI Research 的 GitHub 上有相关的 SFR-RAG 项目（https://github.com/SalesforceAIResearch/SFR-RAG），但并非本文的 SFR-DR 实现。论文中提到的对比 baseline（如 WebSailor、WebShaper）有各自的开源实现，可供参考。

---

论文信息： SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents. Xuan-Phi Nguyen et al. arXiv:2509.06283v2 (2025-09-09).