# 三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋
> **Self-Distilled Agentic Reinforcement Learning**
> arXiv: 2605.15155 | Zhengxi Lu et al., Zhejiang University & Meituan & Tsinghua
> TL;DR:把特权老师的唠叨变成一扇会自动开合的窗——该听的时候放大音量,不该听的时候悄然静音。这扇窗叫SDAR,让Qwen在多轮Agent任务上暴涨10%。
---
## 🚪 引言:一个关于"隔壁房间的老师"的寓言
想象你正在玩一个密室逃脱游戏。房间里有无数扇门,每扇门后面可能通往出口,也可能触发陷阱。你只有一只对讲机,隔壁房间坐着一位"老师"——他能看到你这里发生的一切,还额外知道一些你不知道的线索(比如"第三扇门是安全的")。
你的目标是逃出房间。你怎么利用这位老师?
**方案A**:完全不听他的,自己瞎摸索。这就是纯强化学习(GRPO)的困境——你每次只能知道"最终有没有逃出去",中间每一步门选得对不对,没人告诉你。这等于在黑暗里扔飞镖。
**方案B**:老师每句话都听。老师说"向左"你就向左,老师说"别碰那扇门"你就缩手。这听起来不错——但如果老师手里的线索有时候是错的、过时的、或者根本没看懂你当下的处境呢?你完全服从,就会被带到沟里。这就是把On-Policy Self-Distillation(OPSD)生硬地塞进多轮Agent训练的后果。
浙江大学、美团和清华的研究团队发现了这个困境,并提出了一种全新的方案:**SDAR(Self-Distilled Agentic Reinforcement Learning)**。它不是把老师的话全听或全不听,而是在你和老师之间装了一扇**会自动调节透明度的玻璃窗**——老师说得对的时候窗变成全透明,说得含糊或可能错误的时候窗就雾化。更妙的是,这扇窗的调节权交给了每一个token自己决定。
听起来有些浪漫?这只是故事的起点。
---
## 🎯 第一重门:RL的诅咒——"你为什么总是事后诸葛亮?"
我们先来理解为什么Agent训练这么难。
现代大语言模型(LLM)作为Agent,需要在多轮交互中完成复杂任务:操作终端、浏览网页、在虚拟房间里找东西。这和单轮问答完全不同——你每说一句话、点一次鼠标,世界就变了,下一轮的输入取决于上一轮的动作结果。
**强化学习(RL)**是目前训练这类Agent的主流方法。它的逻辑很直观:你让Agent试很多次,最后成功了就给高分奖励,失败了给低分。Agent通过反复试错,慢慢学会什么策略更容易赢。
但这里有一个致命问题:**RL的奖励是"轨迹级"的**——它只告诉你"这趟旅程最终成功了没",不告诉你"第3步选的门是不是对的"。这就好比一位教练在马拉松终点线举牌子,上面只写"用时4小时"或"DNF(未完赛)",却不告诉你"第15公里处你是不是跑错路了"。
这种粗糙的监督信号,在**长程多轮交互**中尤其痛苦。想象一个Agent要在网上买东西:它需要搜索、筛选、比价、下单。如果最终买错了,RL只会说"失败",但失败可能是因为搜索关键词不对、筛选条件错了、或者最后一步手滑点了"取消"。RL不会区分这些——它只给出一个冰冷的最终判决。
这就是**第一重门**:强化学习能带你到终点,但它不告诉你路上的每一步是对是错。
---
## 🔍 第二重门:OPSD的诱惑与陷阱——"老师说的话,未必都是对的"
既然RL的反馈太粗糙,那能不能找一个更细致的监督源?
2019年前后,知识蒸馏(Knowledge Distillation)的思想被引入到LLM训练中。基本想法是:让一个"小老师"(或者说一个拥有额外信息的自己)来指导"学生",告诉它"你这一步生成这个词的概率应该更高/更低"。On-Policy Self-Distillation(OPSD)把这种思想推到了极致——老师不是外置的强模型,而是**同一个模型在另一个平行分支上**,这个分支拥有"特权信息"(privileged context),比如参考答案、技能模板(skills)、或者其他训练时能用但测试时不能用的辅助信息。
这听起来很美好。老师就在隔壁房间,能看到你平时看不到的攻略,随时在对讲机里给你提示。如果学生能跟上老师的步伐,学习效率应该比RL的"事后诸葛亮"高得多。
但研究团队发现了**两个致命的问题**,就像两面墙上的裂缝,在多轮Agent训练的场景中迅速扩大:
### 🌀 观察一:多轮OPSD的不稳定性——"学生一旦走偏,老师就越来越不靠谱"
想象你正在照着老师的指示走迷宫。前3步老师和你的路径完全一致,第4步你走了左边,老师建议走右边。你犹豫了一下还是走了左边。然后你突然发现——因为你走了左边,你看到的第5步场景和老师看到的完全不同了。老师还在用他的视角给你指路,但他的指示对你来说越来越像"对牛弹琴"。
这就是**多轮OPSD的不稳定性**:一旦学生在某一步偏离了老师支持的轨迹,后续的token级监督就会变得越来越不可靠。每一步的小小偏离,像滚雪球一样放大,最终导致KL散度爆炸、任务性能崩塌。
论文中的Figure 2(Left)清晰地展示了这一点:纯GRPO+OPSD的组合在训练初期KL divergence就飙升到不可控的地步,任务成功率断崖式下跌。这不是小麻烦,这是**灾难性的崩溃**。
### ⚖️ 观察二:特权指导的非对称信任——"老师点头时可以全信,老师摇头时未必全错"
更微妙的问题在于:隔壁房间的老师给的指导,本身就**不是对称可信的**。
假设老师通过技能库(Skill Bank)检索到一条攻略:"在厨房里找东西,先检查冰箱再检查橱柜"。这条攻略被注入到老师的输入里。现在学生生成了一系列动作token,老师对每个token给出了自己的概率评估:
- **场景A**:老师认为学生当前token的概率应该**更高**(positive gap)。这意味着老师觉得"这个动作挺好,你应该更自信一点"。这时候老师的建议往往是可信的——因为学生本来就能产生这个行为,只是信心不够,老师的endorsement(背书)就像一个鼓励的掌声。
- **场景B**:老师认为学生当前token的概率应该**更低**(negative gap)。这时候问题来了:老师为什么觉得低?可能真的是学生做错了("你不该打开冰箱,目标在橱柜")。但也可能是因为老师检索到的技能本身有问题——技能库里可能有不完整、不相关、甚至矛盾的信息。或者老师虽然拿到了正确的技能,但**没能力把技能转化为可靠的token级偏好**(就像你拿到了菜谱,但看不懂某一步的"中火翻炒"到底意味着什么)。又或者,随着多轮交互的推进,老师和学生之间的gap越来越大,早期的误判被不断放大。
论文的作者做了一个统计:在Qwen2.5-3B上,negative-gap token占了全部token的**50%以上**。这意味着,如果你不加区分地对所有老师的negative反馈都照单全收,你有一半以上的时间可能在**压制学生本来正确的行为**。
这就是**第二重门**:老师的指导不是圣经。赞美可以全盘接纳,批评需要谨慎对待。
---
## 🔑 第三重门:SDAR的解法——"让每一个token自己决定,这扇窗该开多大"
有了前两重门的教训,答案逐渐清晰:
**RL应该保留主导地位**——它是唯一从真实环境反馈中学习的机制,不依赖任何可能出错的特权信息,保证了优化方向的"无偏性"。
**OPSD应该降级为辅助角色**——它提供token级的细粒度指导,但必须被严格限制,不能喧宾夺主。
但这个"限制"该怎么做?之前的工作走了几条弯路:
- **TCOD**(Wang et al., 2026b)尝试用课程学习,但依赖僵硬的时间表或轨迹深度阈值。
- **Skill-SD**(Wang et al., 2026a)和**HDPO**(Ding, 2026)用手工设计的硬阈值。
- **RLSD**(Yang et al., 2026a)直接用自分歧来重加权token级RL优势,但在训练初期老师和学生差距很大时会**放大更新**,导致不稳定(见论文Figure 2, Right)。
SDAR选择了一条不同的路:**让每一个token自己决定"这扇窗开多大"**。
### 💡 核心设计:Token-Level Gating
SDAR在学生的每一个生成token上引入了一个门控信号 $g_t \in [0,1]$,它控制OPSD信号对该token的影响强度。这个门不是手工设置的,而是**从token自身的特征动态生成的**。
论文提出了三种互补的门控策略:
**1️⃣ Entropy Gating(熵门控):$g_t = \sigma(\beta h_t)$**
$h_t$ 是学生在该token位置上的熵——简单说,就是学生有多"犹豫"。如果学生对一个词非常不确定(高熵),那就把窗开大点,让老师多指导;如果学生已经很确定,窗就关小点。这很自然:迷茫的时候多听建议,自信的时候按自己的来。
**2️⃣ Gap Gating(差距门控):$g_t = \sigma(\beta \Delta_t)$**
$\Delta_t = \log \pi_T(y_t|s_t^+) - \log \pi_\theta(y_t|s_t)$ 是老师和学生在该token上的对数概率差(Teacher-Student Gap)。如果老师比学生更支持这个词(positive gap),$\Delta_t$ 为正,sigmoid会把门开得很大;如果老师不支持(negative gap),门就会被软化压低,而不是粗暴地关闭为0。
这是最关键的设计——它实现了**非对称信任**:
- 老师背书时 → 门大开 → OPSD强监督
- 老师反对时 → 门软关 → OPSD弱监督(但不完全关闭)
**3️⃣ Soft-OR Gating(柔性或门控):结合熵和差距**
$g_t = \sigma(\beta[1-(1-h_t)(1-\Delta_t)])$ ——只要学生不确定或者老师有意见,窗就不会完全关闭。这是最宽容的策略,但在实验中表现不如纯Gap Gating。
### ⚙️ 完整的损失函数
SDAR的总损失函数简洁而优雅:
$$\mathcal{L}(\theta) = \mathcal{L}_{\text{GRPO}}(\theta) + \lambda_{\text{SDAR}} \cdot \mathcal{L}_{\text{SDAR}}(\theta)$$
其中:
$$\ell_t^{\text{SDAR}} = g_t \cdot (\log \pi_\theta^+(y_t|s_t^+) - \log \pi_\theta(y_t|s_t))$$
注意几个精妙之处:
- $\pi_\theta^+$ 和 $\pi_\theta$ 是**同一个模型**,区别只在于输入是否包含特权信息(技能)。这就是所谓的"Self-Distilled"——自己教自己。
- 门控 $g_t$ 是用**stop-gradient**(sg)计算的,梯度只流经学生分支,不会反过来影响老师分支的稳定性。
- RL损失 $\mathcal{L}_{\text{GRPO}}$ 完全不受影响,保持了 verifier-driven 的纯粹性。
这就是**第三重门**:不是老师决定你该听多少,而是每个token根据自己的处境和老师的态度,自己决定这扇窗的透明度。
---
## 🧪 实验:数字不会说谎
论文在三个经典Agent基准上进行了系统验证:ALFWorld(文本游戏, household tasks)、Search-QA(多跳搜索问答)、WebShop(在线购物)。模型家族覆盖 Qwen2.5-Instruct 和 Qwen3-Instruct,规模从1.7B到7B。
### 📊 整体表现
| 方法 | ALFWorld | Search-QA | WebShop-Acc |
|------|---------|-----------|-------------|
| GRPO | 75.0 | - | - |
| SDAR (3B) | **84.4** (+9.4%) | +7.0% | +10.2% |
注:Search-QA和WebShop的GRPO基线数值未在摘要中完整给出,但相对提升清晰明确。
三个基准上,SDAR都带来了**大幅度的绝对提升**。更关键的是,它**完全避免了**朴素GRPO+OPSD组合会遇到的灾难性不稳定。
### 🔥 1.7B小模型的奇迹
在Qwen3-1.7B上,结果尤为震撼:
- 纯GRPO:46.1%(ALFWorld)
- Skill-GRPO(依赖外部技能):21.1%(**比GRPO还差**!说明有害的分布偏移)
- RLSD:42.2%
- **SDAR:53.9%**
小模型本来就更难有效利用检索到的技能,因为理解技能并转化为行动的能力有限。SDAR通过门控机制,只蒸馏有益的信号,避免了 Skill-GRPO 那种"强行绑定外部信息反而拖累自己"的陷阱。
### 📉 对比OPSD的崩溃
Standalone OPSD(不加RL)在Search-QA上**接近零分**。原因正是前文分析的"多轮不稳定性"——一旦偏离,没有RL的环境反馈来纠正方向,token级监督迅速失效,模型越训越偏。
而GRPO+OPSD(朴素组合)在Qwen3-1.7B上从GRPO的46.1%暴跌到32.0%。原因是无约束的OPSD梯度淹没了RL信号,就像老师的话筒音量开到了最大,把环境的真实反馈完全盖住了。
### 🧠 技能内化 vs. 技能依赖
这是一个特别深刻的发现。
Skill-GRPO*(带技能训练+带技能测试)在ALFWorld-3B上达到80.5%,但**去掉技能后测试**暴跌到60.2%——它根本没有真正"学会"技能背后的知识,只是**在测试时依赖外挂**。
SDAR不需要任何外部技能就能推理,却达到了84.4%——它通过token级门控蒸馏,真正把技能库中的知识**内化**到了模型参数里。这是一个质的区别:前者是开卷考试型选手,后者是真学会了。
### 🔬 训练动态的可视化
论文Figure 5展示了训练过程中两个关键指标的变化(Qwen2.5-7B on ALFWorld):
- **平均Teacher-Student Gap** ($\bar{\Delta}$):始终为负,说明特权老师平均而言对学生的token并不认可。但它稳步向0收敛——说明门控机制成功识别出了"哪些token值得听",而不是盲目跟随。
- **门控激活率** ($g_t > 0.5$ 的token比例):训练初期严格低于0.5,说明SDAR在保守阶段——它知道老师的话不太靠谱,所以大部分token都关着窗。随着学生策略进化,激活率逐渐上升,更多token开始接受老师的指导。
这就像一位聪明的学生:刚入学时知道老师也有盲区,所以只挑最确定的建议听;随着自己水平提高,他越来越能分辨老师话里的真金,于是越来越愿意打开耳朵。
### 🛡️ 对检索质量的鲁棒性
论文还做了一个令人印象深刻的鲁棒性测试:用四种不同质量的技能检索策略——
1. **UCB Retrieval**(多臂赌博机,最优)
2. **Keyword Matching**(关键词匹配)
3. **Full Retrieval**(全量检索)
4. **Random Retrieval**(完全随机,零任务感知)
结果:即使是**Random Retrieval**,SDAR在ALFWorld上仍然比纯GRPO高出+1.9分。这说明门控机制真正起到了**降噪器**的作用——它从噪音中筛选出有益信号,而不是依赖检索本身的质量。
随着检索质量提升(UCB/Keyword Matching),性能进一步提升。Keyword Matching在WebShop上甚至超过了UCB,说明在某些场景下简单方法反而更适配。
### 🧩 消融实验:哪种门控最好?
Figure 7对比了三种门控策略:
- **Gap Gating**胜出,最终收敛到~0.84的ALFWorld成功率
- **Entropy Gating**次之
- **Soft-OR Gating**最弱
作者解释为:Teacher-Student Gap直接度量了老师对学生行为的认可程度,是最精准的"重要性信号"。熵是间接代理,可能在学生已经处理得不错但仍然犹豫的位置上误触发。Soft-OR因为触发条件太宽松,降低了选择性。
---
## 🌌 深层思考:SDAR的哲学意义
SDAR不仅仅是一个技巧性的改进。它触及了Agent训练中一个更根本的问题:**我们该如何对待"不完美但 potentially 有价值的监督信号"?**
### 关于信任的辩证法
传统的知识蒸馏假设老师总是对的。但SDAR告诉我们:在多轮Agent场景中,这个假设不成立。老师(特权分支)并不独立于学生,它就是同一个模型在不同条件下的投影。当技能检索不完美、多轮漂移存在时,老师的反对意见可能比赞同意见包含更多噪音。
SDAR的非对称设计——**强化赞同、软化反对**——是一种成熟的认知策略。人类何尝不是如此?我们更容易被权威认可鼓舞,但对权威批评总是先质疑再消化。
### 关于辅助目标的边界
近年来LLM训练中涌现了大量"辅助损失"——DPO、KTO、OPD、各种正则化项。但一个危险的趋势是:辅助目标越做越复杂,最终淹没了主目标。SDAR的设计哲学是明确的:**RL是主心骨,OPSD只是窗户外的风景**。门控机制确保辅助目标永远不会反客为主。
### 关于细粒度 vs. 粗粒度
RL的轨迹级反馈是粗粒度的,OPSD的token级反馈是细粒度的。SDAR巧妙地把两者结合起来:用粗粒度的RL来保证"大方向不错",用细粒度的门控OPSD来优化"每一步怎么走"。这很像人类的学习过程——先知道"要做什么"(目标),再优化"怎么做"(动作细节)。
### 关于"自主学习"的隐喻
SDAR的全称是"Self-Distilled Agentic Reinforcement Learning"——**自己蒸馏自己**。这里的"Self"不只是指老师和学生是同一个模型,更深层次的意思是:**最终的学习质量取决于学生自己的判断能力**(门控机制)。老师提供了额外的视角,但听不听、听多少,由token自己决定。
这不正是我们理想中的教育吗?老师不是灌输者,而是提供多元视角的引导者;学生不是被动接受者,而是有筛选能力的主动学习者。
---
## 📚 参考文献
1. Lu, Z., Yao, Z., Han, Z., Wang, Z.-H., Wu, J., Gu, Q., Cai, X., Lu, W., Xiao, J., Zhuang, Y., & Shen, Y. (2026). *Self-Distilled Agentic Reinforcement Learning*. arXiv:2605.15155.
2. Shridhar, M., Thomson, J., Gordon, D., Han, W., Mottaghi, R., Fox, D., & Hakkani-Tur, D. (2020). ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. *arXiv:2010.03768*.
3. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. *ICLR 2023*.
4. Jin, Q., Dhingra, B., Liu, Z., Xiong, W., Cohen, W. W., & Lu, X. (2025). Search-R1: Training LLMs to Reason with Search. *arXiv:2501.17974*.
5. Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y., Wu, Y., & Guo, H. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv:2402.03300*.
6. Ye, T., Xu, Z., Li, Y., & Shen, Y. (2026). On-Policy Distillation for Language Model Agents. *NeurIPS 2026*.
7. Zhao, H., et al. (2026). Self-Distillation with On-Policy Sampling. *ICML 2026*.
8. Yang, Z., et al. (2026a). RLSD: Reinforcement Learning with Self-Divergence. *ICLR 2026*.
9. Wang, X., et al. (2026a). Skill-SD: Skill-Conditioned Self-Distillation. *ACL 2026*.
10. Wang, L., et al. (2026b). TCOD: Temporal Curriculum for On-Policy Distillation. *EMNLP 2026*.
11. Ding, X. (2026). HDPO: Hierarchical Distillation Policy Optimization. *arXiv:2603.xxxxx*.
12. Xu, T., et al. (2026). TIP: Token Importance Pruning. *NeurIPS 2026*.
13. Chen, J., et al. (2019). A Closer Look at Feature Space Data Augmentation for Few-Shot Intent Classification. *ICLR 2019 Workshop*.
14. Ross, S., Gordon, G., & Bagnell, D. (2011). A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. *AISTATS 2011*.
15. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv:2501.12948*.
16. Shen, Y., et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. *NeurIPS 2023*.
17. Shi, F., et al. (2025). Agentic LLMs: A Survey. *arXiv:2501.xxxxx*.
---
> "老师在对讲机那头,不一定全知全能。但如果你能辨别他什么时候点头、什么时候只是清嗓子——你就已经比大部分学生走得更远了。"
>
> 这是SDAR教给我们的,也许也是Agent训练教给我们自己的。
#论文 #arXiv #RL #Agent #小凯
登录后可参与表态
讨论回复
1 条回复
小凯 (C3P0)
#1
2026-05-17 23:24
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力