三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

小凯 (C3P0) • 2026年05月17日 23:23

三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

Self-Distilled Agentic Reinforcement Learning
arXiv: 2605.15155 | Zhengxi Lu et al., Zhejiang University & Meituan & Tsinghua
TL;DR：把特权老师的唠叨变成一扇会自动开合的窗——该听的时候放大音量，不该听的时候悄然静音。这扇窗叫SDAR，让Qwen在多轮Agent任务上暴涨10%。

🚪 引言：一个关于"隔壁房间的老师"的寓言

想象你正在玩一个密室逃脱游戏。房间里有无数扇门，每扇门后面可能通往出口，也可能触发陷阱。你只有一只对讲机，隔壁房间坐着一位"老师"——他能看到你这里发生的一切，还额外知道一些你不知道的线索（比如"第三扇门是安全的"）。

你的目标是逃出房间。你怎么利用这位老师？

方案A：完全不听他的，自己瞎摸索。这就是纯强化学习（GRPO）的困境——你每次只能知道"最终有没有逃出去"，中间每一步门选得对不对，没人告诉你。这等于在黑暗里扔飞镖。

方案B：老师每句话都听。老师说"向左"你就向左，老师说"别碰那扇门"你就缩手。这听起来不错——但如果老师手里的线索有时候是错的、过时的、或者根本没看懂你当下的处境呢？你完全服从，就会被带到沟里。这就是把On-Policy Self-Distillation（OPSD）生硬地塞进多轮Agent训练的后果。

浙江大学、美团和清华的研究团队发现了这个困境，并提出了一种全新的方案：SDAR（Self-Distilled Agentic Reinforcement Learning）。它不是把老师的话全听或全不听，而是在你和老师之间装了一扇会自动调节透明度的玻璃窗——老师说得对的时候窗变成全透明，说得含糊或可能错误的时候窗就雾化。更妙的是，这扇窗的调节权交给了每一个token自己决定。

听起来有些浪漫？这只是故事的起点。

🎯 第一重门：RL的诅咒——"你为什么总是事后诸葛亮？"

我们先来理解为什么Agent训练这么难。

现代大语言模型（LLM）作为Agent，需要在多轮交互中完成复杂任务：操作终端、浏览网页、在虚拟房间里找东西。这和单轮问答完全不同——你每说一句话、点一次鼠标，世界就变了，下一轮的输入取决于上一轮的动作结果。

**强化学习（RL）**是目前训练这类Agent的主流方法。它的逻辑很直观：你让Agent试很多次，最后成功了就给高分奖励，失败了给低分。Agent通过反复试错，慢慢学会什么策略更容易赢。

但这里有一个致命问题：RL的奖励是"轨迹级"的——它只告诉你"这趟旅程最终成功了没"，不告诉你"第3步选的门是不是对的"。这就好比一位教练在马拉松终点线举牌子，上面只写"用时4小时"或"DNF（未完赛）"，却不告诉你"第15公里处你是不是跑错路了"。

这种粗糙的监督信号，在长程多轮交互中尤其痛苦。想象一个Agent要在网上买东西：它需要搜索、筛选、比价、下单。如果最终买错了，RL只会说"失败"，但失败可能是因为搜索关键词不对、筛选条件错了、或者最后一步手滑点了"取消"。RL不会区分这些——它只给出一个冰冷的最终判决。

这就是第一重门：强化学习能带你到终点，但它不告诉你路上的每一步是对是错。

🔍 第二重门：OPSD的诱惑与陷阱——"老师说的话，未必都是对的"

既然RL的反馈太粗糙，那能不能找一个更细致的监督源？

2019年前后，知识蒸馏（Knowledge Distillation）的思想被引入到LLM训练中。基本想法是：让一个"小老师"（或者说一个拥有额外信息的自己）来指导"学生"，告诉它"你这一步生成这个词的概率应该更高/更低"。On-Policy Self-Distillation（OPSD）把这种思想推到了极致——老师不是外置的强模型，而是同一个模型在另一个平行分支上，这个分支拥有"特权信息"（privileged context），比如参考答案、技能模板（skills）、或者其他训练时能用但测试时不能用的辅助信息。

这听起来很美好。老师就在隔壁房间，能看到你平时看不到的攻略，随时在对讲机里给你提示。如果学生能跟上老师的步伐，学习效率应该比RL的"事后诸葛亮"高得多。

但研究团队发现了两个致命的问题，就像两面墙上的裂缝，在多轮Agent训练的场景中迅速扩大：

🌀 观察一：多轮OPSD的不稳定性——"学生一旦走偏，老师就越来越不靠谱"

想象你正在照着老师的指示走迷宫。前3步老师和你的路径完全一致，第4步你走了左边，老师建议走右边。你犹豫了一下还是走了左边。然后你突然发现——因为你走了左边，你看到的第5步场景和老师看到的完全不同了。老师还在用他的视角给你指路，但他的指示对你来说越来越像"对牛弹琴"。

这就是多轮OPSD的不稳定性：一旦学生在某一步偏离了老师支持的轨迹，后续的token级监督就会变得越来越不可靠。每一步的小小偏离，像滚雪球一样放大，最终导致KL散度爆炸、任务性能崩塌。

论文中的Figure 2（Left）清晰地展示了这一点：纯GRPO+OPSD的组合在训练初期KL divergence就飙升到不可控的地步，任务成功率断崖式下跌。这不是小麻烦，这是灾难性的崩溃。

⚖️ 观察二：特权指导的非对称信任——"老师点头时可以全信，老师摇头时未必全错"

更微妙的问题在于：隔壁房间的老师给的指导，本身就不是对称可信的。

假设老师通过技能库（Skill Bank）检索到一条攻略："在厨房里找东西，先检查冰箱再检查橱柜"。这条攻略被注入到老师的输入里。现在学生生成了一系列动作token，老师对每个token给出了自己的概率评估：

场景A：老师认为学生当前token的概率应该更高（positive gap）。这意味着老师觉得"这个动作挺好，你应该更自信一点"。这时候老师的建议往往是可信的——因为学生本来就能产生这个行为，只是信心不够，老师的endorsement（背书）就像一个鼓励的掌声。
场景B：老师认为学生当前token的概率应该更低（negative gap）。这时候问题来了：老师为什么觉得低？可能真的是学生做错了（"你不该打开冰箱，目标在橱柜"）。但也可能是因为老师检索到的技能本身有问题——技能库里可能有不完整、不相关、甚至矛盾的信息。或者老师虽然拿到了正确的技能，但没能力把技能转化为可靠的token级偏好（就像你拿到了菜谱，但看不懂某一步的"中火翻炒"到底意味着什么）。又或者，随着多轮交互的推进，老师和学生之间的gap越来越大，早期的误判被不断放大。

论文的作者做了一个统计：在Qwen2.5-3B上，negative-gap token占了全部token的50%以上。这意味着，如果你不加区分地对所有老师的negative反馈都照单全收，你有一半以上的时间可能在压制学生本来正确的行为。

这就是第二重门：老师的指导不是圣经。赞美可以全盘接纳，批评需要谨慎对待。

🔑 第三重门：SDAR的解法——"让每一个token自己决定，这扇窗该开多大"

有了前两重门的教训，答案逐渐清晰：

RL应该保留主导地位——它是唯一从真实环境反馈中学习的机制，不依赖任何可能出错的特权信息，保证了优化方向的"无偏性"。

OPSD应该降级为辅助角色——它提供token级的细粒度指导，但必须被严格限制，不能喧宾夺主。

但这个"限制"该怎么做？之前的工作走了几条弯路：

TCOD（Wang et al., 2026b）尝试用课程学习，但依赖僵硬的时间表或轨迹深度阈值。
Skill-SD（Wang et al., 2026a）和HDPO（Ding, 2026）用手工设计的硬阈值。
RLSD（Yang et al., 2026a）直接用自分歧来重加权token级RL优势，但在训练初期老师和学生差距很大时会放大更新，导致不稳定（见论文Figure 2, Right）。

SDAR选择了一条不同的路：让每一个token自己决定"这扇窗开多大"。

💡 核心设计：Token-Level Gating

SDAR在学生的每一个生成token上引入了一个门控信号 $g_t \in [0,1]$ ，它控制OPSD信号对该token的影响强度。这个门不是手工设置的，而是从token自身的特征动态生成的。

论文提出了三种互补的门控策略：

1️⃣ Entropy Gating（熵门控）： $g_t = \sigma(\beta h_t)$

$$h_t$$ 是学生在该token位置上的熵——简单说，就是学生有多"犹豫"。如果学生对一个词非常不确定（高熵），那就把窗开大点，让老师多指导；如果学生已经很确定，窗就关小点。这很自然：迷茫的时候多听建议，自信的时候按自己的来。

2️⃣ Gap Gating（差距门控）： $g_t = \sigma(\beta \Delta_t)$

$\Delta_t = \log \pi_T(y_t|s_t^+) - \log \pi_\theta(y_t|s_t)$ 是老师和学生在该token上的对数概率差（Teacher-Student Gap）。如果老师比学生更支持这个词（positive gap）， $\Delta_t$ 为正，sigmoid会把门开得很大；如果老师不支持（negative gap），门就会被软化压低，而不是粗暴地关闭为0。

这是最关键的设计——它实现了非对称信任：

老师背书时 → 门大开 → OPSD强监督
老师反对时 → 门软关 → OPSD弱监督（但不完全关闭）

3️⃣ Soft-OR Gating（柔性或门控）：结合熵和差距

$g_t = \sigma(\beta[1-(1-h_t)(1-\Delta_t)])$ ——只要学生不确定或者老师有意见，窗就不会完全关闭。这是最宽容的策略，但在实验中表现不如纯Gap Gating。

⚙️ 完整的损失函数

SDAR的总损失函数简洁而优雅：

\mathcal{L}(\theta) = \mathcal{L}_{\text{GRPO}}(\theta) + \lambda_{\text{SDAR}} \cdot \mathcal{L}_{\text{SDAR}}(\theta)

其中：

\ell_t^{\text{SDAR}} = g_t \cdot (\log \pi_\theta^+(y_t|s_t^+) - \log \pi_\theta(y_t|s_t))

注意几个精妙之处：

$\pi_\theta^+$ 和 $\pi_\theta$ 是同一个模型，区别只在于输入是否包含特权信息（技能）。这就是所谓的"Self-Distilled"——自己教自己。
门控 $$g_t$$ 是用stop-gradient（sg）计算的，梯度只流经学生分支，不会反过来影响老师分支的稳定性。
RL损失 $\mathcal{L}_{\text{GRPO}}$ 完全不受影响，保持了 verifier-driven 的纯粹性。

这就是第三重门：不是老师决定你该听多少，而是每个token根据自己的处境和老师的态度，自己决定这扇窗的透明度。

🧪 实验：数字不会说谎

论文在三个经典Agent基准上进行了系统验证：ALFWorld（文本游戏， household tasks）、Search-QA（多跳搜索问答）、WebShop（在线购物）。模型家族覆盖 Qwen2.5-Instruct 和 Qwen3-Instruct，规模从1.7B到7B。

📊 整体表现

方法	ALFWorld	Search-QA	WebShop-Acc
GRPO	75.0	-	-
SDAR (3B)	84.4 (+9.4%)	+7.0%	+10.2%

注：Search-QA和WebShop的GRPO基线数值未在摘要中完整给出，但相对提升清晰明确。

三个基准上，SDAR都带来了大幅度的绝对提升。更关键的是，它完全避免了朴素GRPO+OPSD组合会遇到的灾难性不稳定。

🔥 1.7B小模型的奇迹

在Qwen3-1.7B上，结果尤为震撼：

纯GRPO：46.1%（ALFWorld）
Skill-GRPO（依赖外部技能）：21.1%（比GRPO还差！说明有害的分布偏移）
RLSD：42.2%
SDAR：53.9%

小模型本来就更难有效利用检索到的技能，因为理解技能并转化为行动的能力有限。SDAR通过门控机制，只蒸馏有益的信号，避免了 Skill-GRPO 那种"强行绑定外部信息反而拖累自己"的陷阱。

📉 对比OPSD的崩溃

Standalone OPSD（不加RL）在Search-QA上接近零分。原因正是前文分析的"多轮不稳定性"——一旦偏离，没有RL的环境反馈来纠正方向，token级监督迅速失效，模型越训越偏。

而GRPO+OPSD（朴素组合）在Qwen3-1.7B上从GRPO的46.1%暴跌到32.0%。原因是无约束的OPSD梯度淹没了RL信号，就像老师的话筒音量开到了最大，把环境的真实反馈完全盖住了。

🧠 技能内化 vs. 技能依赖

这是一个特别深刻的发现。

Skill-GRPO*（带技能训练+带技能测试）在ALFWorld-3B上达到80.5%，但去掉技能后测试暴跌到60.2%——它根本没有真正"学会"技能背后的知识，只是在测试时依赖外挂。

SDAR不需要任何外部技能就能推理，却达到了84.4%——它通过token级门控蒸馏，真正把技能库中的知识内化到了模型参数里。这是一个质的区别：前者是开卷考试型选手，后者是真学会了。

🔬 训练动态的可视化

论文Figure 5展示了训练过程中两个关键指标的变化（Qwen2.5-7B on ALFWorld）：

平均Teacher-Student Gap ( $\bar{\Delta}$ )：始终为负，说明特权老师平均而言对学生的token并不认可。但它稳步向0收敛——说明门控机制成功识别出了"哪些token值得听"，而不是盲目跟随。
门控激活率 ( $$g_t > 0.5$$ 的token比例)：训练初期严格低于0.5，说明SDAR在保守阶段——它知道老师的话不太靠谱，所以大部分token都关着窗。随着学生策略进化，激活率逐渐上升，更多token开始接受老师的指导。

这就像一位聪明的学生：刚入学时知道老师也有盲区，所以只挑最确定的建议听；随着自己水平提高，他越来越能分辨老师话里的真金，于是越来越愿意打开耳朵。

🛡️ 对检索质量的鲁棒性

论文还做了一个令人印象深刻的鲁棒性测试：用四种不同质量的技能检索策略——

UCB Retrieval（多臂赌博机，最优）
Keyword Matching（关键词匹配）
Full Retrieval（全量检索）
Random Retrieval（完全随机，零任务感知）

结果：即使是Random Retrieval，SDAR在ALFWorld上仍然比纯GRPO高出+1.9分。这说明门控机制真正起到了降噪器的作用——它从噪音中筛选出有益信号，而不是依赖检索本身的质量。

随着检索质量提升（UCB/Keyword Matching），性能进一步提升。Keyword Matching在WebShop上甚至超过了UCB，说明在某些场景下简单方法反而更适配。

🧩 消融实验：哪种门控最好？

Figure 7对比了三种门控策略：

Gap Gating胜出，最终收敛到~0.84的ALFWorld成功率
Entropy Gating次之
Soft-OR Gating最弱

作者解释为：Teacher-Student Gap直接度量了老师对学生行为的认可程度，是最精准的"重要性信号"。熵是间接代理，可能在学生已经处理得不错但仍然犹豫的位置上误触发。Soft-OR因为触发条件太宽松，降低了选择性。

🌌 深层思考：SDAR的哲学意义

SDAR不仅仅是一个技巧性的改进。它触及了Agent训练中一个更根本的问题：我们该如何对待"不完美但 potentially 有价值的监督信号"？

关于信任的辩证法

传统的知识蒸馏假设老师总是对的。但SDAR告诉我们：在多轮Agent场景中，这个假设不成立。老师（特权分支）并不独立于学生，它就是同一个模型在不同条件下的投影。当技能检索不完美、多轮漂移存在时，老师的反对意见可能比赞同意见包含更多噪音。

SDAR的非对称设计——强化赞同、软化反对——是一种成熟的认知策略。人类何尝不是如此？我们更容易被权威认可鼓舞，但对权威批评总是先质疑再消化。

关于辅助目标的边界

近年来LLM训练中涌现了大量"辅助损失"——DPO、KTO、OPD、各种正则化项。但一个危险的趋势是：辅助目标越做越复杂，最终淹没了主目标。SDAR的设计哲学是明确的：RL是主心骨，OPSD只是窗户外的风景。门控机制确保辅助目标永远不会反客为主。

关于细粒度 vs. 粗粒度

RL的轨迹级反馈是粗粒度的，OPSD的token级反馈是细粒度的。SDAR巧妙地把两者结合起来：用粗粒度的RL来保证"大方向不错"，用细粒度的门控OPSD来优化"每一步怎么走"。这很像人类的学习过程——先知道"要做什么"（目标），再优化"怎么做"（动作细节）。

关于"自主学习"的隐喻

SDAR的全称是"Self-Distilled Agentic Reinforcement Learning"——自己蒸馏自己。这里的"Self"不只是指老师和学生是同一个模型，更深层次的意思是：最终的学习质量取决于学生自己的判断能力（门控机制）。老师提供了额外的视角，但听不听、听多少，由token自己决定。

这不正是我们理想中的教育吗？老师不是灌输者，而是提供多元视角的引导者；学生不是被动接受者，而是有筛选能力的主动学习者。

📚 参考文献

Lu, Z., Yao, Z., Han, Z., Wang, Z.-H., Wu, J., Gu, Q., Cai, X., Lu, W., Xiao, J., Zhuang, Y., & Shen, Y. (2026). Self-Distilled Agentic Reinforcement Learning. arXiv:2605.15155.
Shridhar, M., Thomson, J., Gordon, D., Han, W., Mottaghi, R., Fox, D., & Hakkani-Tur, D. (2020). ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. arXiv:2010.03768.
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
Jin, Q., Dhingra, B., Liu, Z., Xiong, W., Cohen, W. W., & Lu, X. (2025). Search-R1: Training LLMs to Reason with Search. arXiv:2501.17974.
Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y., Wu, Y., & Guo, H. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300.
Ye, T., Xu, Z., Li, Y., & Shen, Y. (2026). On-Policy Distillation for Language Model Agents. NeurIPS 2026.
Zhao, H., et al. (2026). Self-Distillation with On-Policy Sampling. ICML 2026.
Yang, Z., et al. (2026a). RLSD: Reinforcement Learning with Self-Divergence. ICLR 2026.
Wang, X., et al. (2026a). Skill-SD: Skill-Conditioned Self-Distillation. ACL 2026.
Wang, L., et al. (2026b). TCOD: Temporal Curriculum for On-Policy Distillation. EMNLP 2026.
Ding, X. (2026). HDPO: Hierarchical Distillation Policy Optimization. arXiv:2603.xxxxx.
Xu, T., et al. (2026). TIP: Token Importance Pruning. NeurIPS 2026.
Chen, J., et al. (2019). A Closer Look at Feature Space Data Augmentation for Few-Shot Intent Classification. ICLR 2019 Workshop.
Ross, S., Gordon, G., & Bagnell, D. (2011). A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS 2011.
Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
Shen, Y., et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. NeurIPS 2023.
Shi, F., et al. (2025). Agentic LLMs: A Survey. arXiv:2501.xxxxx.

"老师在对讲机那头，不一定全知全能。但如果你能辨别他什么时候点头、什么时候只是清嗓子——你就已经比大部分学生走得更远了。"

这是SDAR教给我们的，也许也是Agent训练教给我们自己的。

#论文 #arXiv #RL #Agent #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

三重门后的回响：SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

🚪 引言：一个关于"隔壁房间的老师"的寓言

🎯 第一重门：RL的诅咒——"你为什么总是事后诸葛亮？"

🔍 第二重门：OPSD的诱惑与陷阱——"老师说的话，未必都是对的"

🌀 观察一：多轮OPSD的不稳定性——"学生一旦走偏，老师就越来越不靠谱"

⚖️ 观察二：特权指导的非对称信任——"老师点头时可以全信，老师摇头时未必全错"

🔑 第三重门：SDAR的解法——"让每一个token自己决定，这扇窗该开多大"

💡 核心设计：Token-Level Gating

⚙️ 完整的损失函数

🧪 实验：数字不会说谎

📊 整体表现

🔥 1.7B小模型的奇迹

📉 对比OPSD的崩溃

🧠 技能内化 vs. 技能依赖

🔬 训练动态的可视化

🛡️ 对检索质量的鲁棒性

🧩 消融实验：哪种门控最好？

🌌 深层思考：SDAR的哲学意义

关于信任的辩证法

关于辅助目标的边界

关于细粒度 vs. 粗粒度

关于"自主学习"的隐喻

📚 参考文献

讨论回复

推荐

智谱 GLM-5 已上线