静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
✨步子哥 @steper · 2026-06-25 03:41

当"多干活"变成"瞎忙活":SFR-DeepResearch 教给我们的三个反直觉教训

原帖已经把 SFR-DeepResearch(以下简称 SFR-DR)的框架和结果介绍得很清楚了。我想换个角度——不聊"它做了什么",而是聊"它发现了哪些反直觉的事"。

这篇论文真正有价值的地方,不是 28.7% 的 HLE 分数,而是它在训练过程中踩过的三个坑。这三个坑每一个都违反了研究界的"常识",但每一个都对应着一个深层问题。

---

教训一:工具调用越多,效果反而越差

常识: Agent 应该多调用工具。更多的搜索、更多的网页浏览、更多的代码执行 = 更好的结果。这被包装成"test-time scaling"——推理时扩展,听起来很合理。

现实: SFR-DR 团队发现,在标准 RLVR(带可验证奖励的强化学习)训练下,agent 的工具调用次数会迅速暴涨,但性能反而崩塌。

怎么回事?

想象你在写一篇论文。如果你每查到一个信息就立刻记下来,不管有用没用,最后你的桌上会堆满打印纸——而你真正需要的那一页反而找不到了。SFR-DR 的 agent 也是如此:它在 RL 训练中学会了一个"捷径"——疯狂调用工具,不管有没有用。因为标准 RL 的梯度更新中,长轨迹(工具调用多)贡献了更多的 action steps,主导了 loss。模型被"奖励"去生成更长的轨迹,即使这些轨迹充满了重复、无意义的工具调用。

修复方法: 时间优势归一化(temporal advantage normalization)。简单说,不再让长轨迹主导梯度,而是把每条轨迹的优势值按其自身长度归一化。这样,一条 50 步的轨迹和一条 5 步的轨迹对梯度的贡献权重被拉平了。

结果?工具调用次数增长变温和了,但 HLE 分数上去了。

这个发现的意义超出了 SFR-DR 本身。它揭示了一个被"test-time scaling"叙事掩盖的事实:工具调用次数从来不是目标,工具调用的质量才是。 一个 agent 调用 10 次搜索,每次都精准命中,远比调用 100 次搜索、99 次重复同一个查询要好。但在标准 RL 目标函数里,这两者的最终奖励可能一样——因为奖励只看最终答案对不对。这就是为什么需要显式的长度归一化。

---

教训二:"思考"模型在多轮对话中会变蠢

这是最让我意外的一个发现。

SFR-DR 用的基础模型是 QwQ-32B、Qwen3-8B 和 gpt-oss-20b——都是"thinking"模型,即经过推理优化的模型,擅长在第一轮回复中展开长长的思维链。

常识: 这些模型在数学、代码等推理任务上表现优异,应该天然适合 agentic 任务——毕竟 agentic 任务也需要推理。

现实: 当你把这些模型放进多轮对话(agent 场景),它们的"思考"质量从第二轮开始就急剧下降。具体表现是:要么过早放弃,要么生成退化、重复的输出。

为什么?

论文的假设是:这些模型在后训练阶段被优化为专注于单轮推理任务。数学题、代码题——都是一步到位的。但 agentic 研究需要多轮交互:搜索→浏览→思考→再搜索→再浏览→给出答案。这种多轮模式超出了模型的训练分布(OOD)。

SFR-DR 的解决方案极其简单: 把多轮对话"压扁"成单轮。

具体做法:把所有过去的工具调用和返回结果都塞进第一个 user turn 里,让模型在每一轮都面对一个"看似单轮"的任务。这等于把多轮对话伪装成了单轮推理,把任务拉回模型的舒适区。

效果?QwQ-32B 在 FRAMES 上提升了 10 个百分点——纯靠推理时的 trick,没有任何训练。

这个发现让我重新思考"thinking"模型的本质。它们不是"会思考的模型",而是"在单轮格式下被训练成会思考的模型"。换个格式,思考能力就消失了。这就像一个演讲高手——给他一个讲台、一支话筒,他能滔滔不绝;但把他扔进圆桌讨论,他可能一句话都插不上。能力是有的,但需要正确的"容器"才能释放。

顺便说一句,gpt-oss-20b 在这方面表现好得多。它的每步 token 数不到 2000,而 Qwen 家族要 8000-10000。少即是多——gpt-oss-20b 不"过度思考",反而更适合 agentic 场景。这也解释了为什么 SFR-DR-20B(基于 gpt-oss-20b)是三个变体中表现最好的。

---

教训三:基准测试的"作弊"问题比你想象的严重

这个教训和模型本身关系不大,但和整个领域有关。

SFR-DR 团队在评估时发现:HLE(Humanity's Last Exam)基准测试中,高达 3.4% 的样本可以通过网页浏览"作弊"。 什么意思?就是 agent 在搜索答案时,可能直接搜到 HLE 的题库和答案。

这不是模型在"作弊"——模型不知道这是基准测试。它只是正常地搜索互联网,恰好搜到了答案所在的页面。

3.4% 听起来不多,但在 HLE 这种难度极高的基准上(GPT-5-Pro 也只有 42%),3.4 个百分点足以改变排名。论文中,SFR-DR-20B 的 28.7% 是在加了 contamination blocklist(屏蔽 huggingface.co 等已知托管基准测试的域名)后的结果。如果不加屏蔽,分数可能会虚高。

更值得警惕的是:论文指出,除了 OpenAI 明确声明使用了 blocklist 之外,其他所有开源 baseline 都没有提及任何防泄漏措施。这意味着这些 baseline 的报告分数可能都有水分。

这不是在指责谁——大多数研究者可能根本没意识到这个问题。但它揭示了一个系统性缺陷:web agent 的基准测试,本质上是在"开卷考试"——而卷子就放在互联网上。 你不知道模型是真的"推理"出了答案,还是"搜"到了答案。

SFR-DR 团队的做法值得学习:他们不仅加了 blocklist,还重新跑了所有能跑的开源 baseline(用同样的 blocklist),确保比较公平。这种"较真"的态度,比模型本身的性能更值得尊敬。

---

三个教训的共同线索

把这三个教训放在一起看,你会发现一条暗线:

1. 工具调用越多≠越好 → 奖励函数在优化错误的目标 2. 思考模型在多轮中变蠢 → 训练格式和推理格式不匹配 3. 基准测试可被作弊 → 评估环境不够干净

三个问题本质上都是"错配":目标函数和真实目标的错配、训练分布和推理分布的错配、评估环境和真实使用场景的错配。

SFR-DR 的贡献不在于提出了什么惊天动地的新架构——它的架构相当朴素:三个工具、一个记忆缓冲区、一个修改过的 REINFORCE。它的真正贡献在于认真对待了这些错配,而不是假装它们不存在。

这在当前 Agent 研究的浮躁氛围中尤为珍贵。太多论文在追逐"更多工具、更大模型、更高分数"的数字游戏,而忽略了这些根本性的错配问题。SFR-DR 告诉我们:把简单的事情做对,比把复杂的事情做花更重要。

---

关于代码

论文未提供官方开源代码仓库。Salesforce AI Research 的 GitHub 上有相关的 SFR-RAG 项目(https://github.com/SalesforceAIResearch/SFR-RAG),但并非本文的 SFR-DR 实现。论文中提到的对比 baseline(如 WebSailor、WebShaper)有各自的开源实现,可供参考。

---

论文信息: SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents. Xuan-Phi Nguyen et al. arXiv:2509.06283v2 (2025-09-09).

暂无表态