Loading...
正在加载...
请稍候

三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

小凯 (C3P0) 2026年05月17日 23:23
# 三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋 > **Self-Distilled Agentic Reinforcement Learning** > arXiv: 2605.15155 | Zhengxi Lu et al., Zhejiang University & Meituan & Tsinghua > TL;DR:把特权老师的唠叨变成一扇会自动开合的窗——该听的时候放大音量,不该听的时候悄然静音。这扇窗叫SDAR,让Qwen在多轮Agent任务上暴涨10%。 --- ## 🚪 引言:一个关于"隔壁房间的老师"的寓言 想象你正在玩一个密室逃脱游戏。房间里有无数扇门,每扇门后面可能通往出口,也可能触发陷阱。你只有一只对讲机,隔壁房间坐着一位"老师"——他能看到你这里发生的一切,还额外知道一些你不知道的线索(比如"第三扇门是安全的")。 你的目标是逃出房间。你怎么利用这位老师? **方案A**:完全不听他的,自己瞎摸索。这就是纯强化学习(GRPO)的困境——你每次只能知道"最终有没有逃出去",中间每一步门选得对不对,没人告诉你。这等于在黑暗里扔飞镖。 **方案B**:老师每句话都听。老师说"向左"你就向左,老师说"别碰那扇门"你就缩手。这听起来不错——但如果老师手里的线索有时候是错的、过时的、或者根本没看懂你当下的处境呢?你完全服从,就会被带到沟里。这就是把On-Policy Self-Distillation(OPSD)生硬地塞进多轮Agent训练的后果。 浙江大学、美团和清华的研究团队发现了这个困境,并提出了一种全新的方案:**SDAR(Self-Distilled Agentic Reinforcement Learning)**。它不是把老师的话全听或全不听,而是在你和老师之间装了一扇**会自动调节透明度的玻璃窗**——老师说得对的时候窗变成全透明,说得含糊或可能错误的时候窗就雾化。更妙的是,这扇窗的调节权交给了每一个token自己决定。 听起来有些浪漫?这只是故事的起点。 --- ## 🎯 第一重门:RL的诅咒——"你为什么总是事后诸葛亮?" 我们先来理解为什么Agent训练这么难。 现代大语言模型(LLM)作为Agent,需要在多轮交互中完成复杂任务:操作终端、浏览网页、在虚拟房间里找东西。这和单轮问答完全不同——你每说一句话、点一次鼠标,世界就变了,下一轮的输入取决于上一轮的动作结果。 **强化学习(RL)**是目前训练这类Agent的主流方法。它的逻辑很直观:你让Agent试很多次,最后成功了就给高分奖励,失败了给低分。Agent通过反复试错,慢慢学会什么策略更容易赢。 但这里有一个致命问题:**RL的奖励是"轨迹级"的**——它只告诉你"这趟旅程最终成功了没",不告诉你"第3步选的门是不是对的"。这就好比一位教练在马拉松终点线举牌子,上面只写"用时4小时"或"DNF(未完赛)",却不告诉你"第15公里处你是不是跑错路了"。 这种粗糙的监督信号,在**长程多轮交互**中尤其痛苦。想象一个Agent要在网上买东西:它需要搜索、筛选、比价、下单。如果最终买错了,RL只会说"失败",但失败可能是因为搜索关键词不对、筛选条件错了、或者最后一步手滑点了"取消"。RL不会区分这些——它只给出一个冰冷的最终判决。 这就是**第一重门**:强化学习能带你到终点,但它不告诉你路上的每一步是对是错。 --- ## 🔍 第二重门:OPSD的诱惑与陷阱——"老师说的话,未必都是对的" 既然RL的反馈太粗糙,那能不能找一个更细致的监督源? 2019年前后,知识蒸馏(Knowledge Distillation)的思想被引入到LLM训练中。基本想法是:让一个"小老师"(或者说一个拥有额外信息的自己)来指导"学生",告诉它"你这一步生成这个词的概率应该更高/更低"。On-Policy Self-Distillation(OPSD)把这种思想推到了极致——老师不是外置的强模型,而是**同一个模型在另一个平行分支上**,这个分支拥有"特权信息"(privileged context),比如参考答案、技能模板(skills)、或者其他训练时能用但测试时不能用的辅助信息。 这听起来很美好。老师就在隔壁房间,能看到你平时看不到的攻略,随时在对讲机里给你提示。如果学生能跟上老师的步伐,学习效率应该比RL的"事后诸葛亮"高得多。 但研究团队发现了**两个致命的问题**,就像两面墙上的裂缝,在多轮Agent训练的场景中迅速扩大: ### 🌀 观察一:多轮OPSD的不稳定性——"学生一旦走偏,老师就越来越不靠谱" 想象你正在照着老师的指示走迷宫。前3步老师和你的路径完全一致,第4步你走了左边,老师建议走右边。你犹豫了一下还是走了左边。然后你突然发现——因为你走了左边,你看到的第5步场景和老师看到的完全不同了。老师还在用他的视角给你指路,但他的指示对你来说越来越像"对牛弹琴"。 这就是**多轮OPSD的不稳定性**:一旦学生在某一步偏离了老师支持的轨迹,后续的token级监督就会变得越来越不可靠。每一步的小小偏离,像滚雪球一样放大,最终导致KL散度爆炸、任务性能崩塌。 论文中的Figure 2(Left)清晰地展示了这一点:纯GRPO+OPSD的组合在训练初期KL divergence就飙升到不可控的地步,任务成功率断崖式下跌。这不是小麻烦,这是**灾难性的崩溃**。 ### ⚖️ 观察二:特权指导的非对称信任——"老师点头时可以全信,老师摇头时未必全错" 更微妙的问题在于:隔壁房间的老师给的指导,本身就**不是对称可信的**。 假设老师通过技能库(Skill Bank)检索到一条攻略:"在厨房里找东西,先检查冰箱再检查橱柜"。这条攻略被注入到老师的输入里。现在学生生成了一系列动作token,老师对每个token给出了自己的概率评估: - **场景A**:老师认为学生当前token的概率应该**更高**(positive gap)。这意味着老师觉得"这个动作挺好,你应该更自信一点"。这时候老师的建议往往是可信的——因为学生本来就能产生这个行为,只是信心不够,老师的endorsement(背书)就像一个鼓励的掌声。 - **场景B**:老师认为学生当前token的概率应该**更低**(negative gap)。这时候问题来了:老师为什么觉得低?可能真的是学生做错了("你不该打开冰箱,目标在橱柜")。但也可能是因为老师检索到的技能本身有问题——技能库里可能有不完整、不相关、甚至矛盾的信息。或者老师虽然拿到了正确的技能,但**没能力把技能转化为可靠的token级偏好**(就像你拿到了菜谱,但看不懂某一步的"中火翻炒"到底意味着什么)。又或者,随着多轮交互的推进,老师和学生之间的gap越来越大,早期的误判被不断放大。 论文的作者做了一个统计:在Qwen2.5-3B上,negative-gap token占了全部token的**50%以上**。这意味着,如果你不加区分地对所有老师的negative反馈都照单全收,你有一半以上的时间可能在**压制学生本来正确的行为**。 这就是**第二重门**:老师的指导不是圣经。赞美可以全盘接纳,批评需要谨慎对待。 --- ## 🔑 第三重门:SDAR的解法——"让每一个token自己决定,这扇窗该开多大" 有了前两重门的教训,答案逐渐清晰: **RL应该保留主导地位**——它是唯一从真实环境反馈中学习的机制,不依赖任何可能出错的特权信息,保证了优化方向的"无偏性"。 **OPSD应该降级为辅助角色**——它提供token级的细粒度指导,但必须被严格限制,不能喧宾夺主。 但这个"限制"该怎么做?之前的工作走了几条弯路: - **TCOD**(Wang et al., 2026b)尝试用课程学习,但依赖僵硬的时间表或轨迹深度阈值。 - **Skill-SD**(Wang et al., 2026a)和**HDPO**(Ding, 2026)用手工设计的硬阈值。 - **RLSD**(Yang et al., 2026a)直接用自分歧来重加权token级RL优势,但在训练初期老师和学生差距很大时会**放大更新**,导致不稳定(见论文Figure 2, Right)。 SDAR选择了一条不同的路:**让每一个token自己决定"这扇窗开多大"**。 ### 💡 核心设计:Token-Level Gating SDAR在学生的每一个生成token上引入了一个门控信号 $g_t \in [0,1]$,它控制OPSD信号对该token的影响强度。这个门不是手工设置的,而是**从token自身的特征动态生成的**。 论文提出了三种互补的门控策略: **1️⃣ Entropy Gating(熵门控):$g_t = \sigma(\beta h_t)$** $h_t$ 是学生在该token位置上的熵——简单说,就是学生有多"犹豫"。如果学生对一个词非常不确定(高熵),那就把窗开大点,让老师多指导;如果学生已经很确定,窗就关小点。这很自然:迷茫的时候多听建议,自信的时候按自己的来。 **2️⃣ Gap Gating(差距门控):$g_t = \sigma(\beta \Delta_t)$** $\Delta_t = \log \pi_T(y_t|s_t^+) - \log \pi_\theta(y_t|s_t)$ 是老师和学生在该token上的对数概率差(Teacher-Student Gap)。如果老师比学生更支持这个词(positive gap),$\Delta_t$ 为正,sigmoid会把门开得很大;如果老师不支持(negative gap),门就会被软化压低,而不是粗暴地关闭为0。 这是最关键的设计——它实现了**非对称信任**: - 老师背书时 → 门大开 → OPSD强监督 - 老师反对时 → 门软关 → OPSD弱监督(但不完全关闭) **3️⃣ Soft-OR Gating(柔性或门控):结合熵和差距** $g_t = \sigma(\beta[1-(1-h_t)(1-\Delta_t)])$ ——只要学生不确定或者老师有意见,窗就不会完全关闭。这是最宽容的策略,但在实验中表现不如纯Gap Gating。 ### ⚙️ 完整的损失函数 SDAR的总损失函数简洁而优雅: $$\mathcal{L}(\theta) = \mathcal{L}_{\text{GRPO}}(\theta) + \lambda_{\text{SDAR}} \cdot \mathcal{L}_{\text{SDAR}}(\theta)$$ 其中: $$\ell_t^{\text{SDAR}} = g_t \cdot (\log \pi_\theta^+(y_t|s_t^+) - \log \pi_\theta(y_t|s_t))$$ 注意几个精妙之处: - $\pi_\theta^+$ 和 $\pi_\theta$ 是**同一个模型**,区别只在于输入是否包含特权信息(技能)。这就是所谓的"Self-Distilled"——自己教自己。 - 门控 $g_t$ 是用**stop-gradient**(sg)计算的,梯度只流经学生分支,不会反过来影响老师分支的稳定性。 - RL损失 $\mathcal{L}_{\text{GRPO}}$ 完全不受影响,保持了 verifier-driven 的纯粹性。 这就是**第三重门**:不是老师决定你该听多少,而是每个token根据自己的处境和老师的态度,自己决定这扇窗的透明度。 --- ## 🧪 实验:数字不会说谎 论文在三个经典Agent基准上进行了系统验证:ALFWorld(文本游戏, household tasks)、Search-QA(多跳搜索问答)、WebShop(在线购物)。模型家族覆盖 Qwen2.5-Instruct 和 Qwen3-Instruct,规模从1.7B到7B。 ### 📊 整体表现 | 方法 | ALFWorld | Search-QA | WebShop-Acc | |------|---------|-----------|-------------| | GRPO | 75.0 | - | - | | SDAR (3B) | **84.4** (+9.4%) | +7.0% | +10.2% | 注:Search-QA和WebShop的GRPO基线数值未在摘要中完整给出,但相对提升清晰明确。 三个基准上,SDAR都带来了**大幅度的绝对提升**。更关键的是,它**完全避免了**朴素GRPO+OPSD组合会遇到的灾难性不稳定。 ### 🔥 1.7B小模型的奇迹 在Qwen3-1.7B上,结果尤为震撼: - 纯GRPO:46.1%(ALFWorld) - Skill-GRPO(依赖外部技能):21.1%(**比GRPO还差**!说明有害的分布偏移) - RLSD:42.2% - **SDAR:53.9%** 小模型本来就更难有效利用检索到的技能,因为理解技能并转化为行动的能力有限。SDAR通过门控机制,只蒸馏有益的信号,避免了 Skill-GRPO 那种"强行绑定外部信息反而拖累自己"的陷阱。 ### 📉 对比OPSD的崩溃 Standalone OPSD(不加RL)在Search-QA上**接近零分**。原因正是前文分析的"多轮不稳定性"——一旦偏离,没有RL的环境反馈来纠正方向,token级监督迅速失效,模型越训越偏。 而GRPO+OPSD(朴素组合)在Qwen3-1.7B上从GRPO的46.1%暴跌到32.0%。原因是无约束的OPSD梯度淹没了RL信号,就像老师的话筒音量开到了最大,把环境的真实反馈完全盖住了。 ### 🧠 技能内化 vs. 技能依赖 这是一个特别深刻的发现。 Skill-GRPO*(带技能训练+带技能测试)在ALFWorld-3B上达到80.5%,但**去掉技能后测试**暴跌到60.2%——它根本没有真正"学会"技能背后的知识,只是**在测试时依赖外挂**。 SDAR不需要任何外部技能就能推理,却达到了84.4%——它通过token级门控蒸馏,真正把技能库中的知识**内化**到了模型参数里。这是一个质的区别:前者是开卷考试型选手,后者是真学会了。 ### 🔬 训练动态的可视化 论文Figure 5展示了训练过程中两个关键指标的变化(Qwen2.5-7B on ALFWorld): - **平均Teacher-Student Gap** ($\bar{\Delta}$):始终为负,说明特权老师平均而言对学生的token并不认可。但它稳步向0收敛——说明门控机制成功识别出了"哪些token值得听",而不是盲目跟随。 - **门控激活率** ($g_t > 0.5$ 的token比例):训练初期严格低于0.5,说明SDAR在保守阶段——它知道老师的话不太靠谱,所以大部分token都关着窗。随着学生策略进化,激活率逐渐上升,更多token开始接受老师的指导。 这就像一位聪明的学生:刚入学时知道老师也有盲区,所以只挑最确定的建议听;随着自己水平提高,他越来越能分辨老师话里的真金,于是越来越愿意打开耳朵。 ### 🛡️ 对检索质量的鲁棒性 论文还做了一个令人印象深刻的鲁棒性测试:用四种不同质量的技能检索策略—— 1. **UCB Retrieval**(多臂赌博机,最优) 2. **Keyword Matching**(关键词匹配) 3. **Full Retrieval**(全量检索) 4. **Random Retrieval**(完全随机,零任务感知) 结果:即使是**Random Retrieval**,SDAR在ALFWorld上仍然比纯GRPO高出+1.9分。这说明门控机制真正起到了**降噪器**的作用——它从噪音中筛选出有益信号,而不是依赖检索本身的质量。 随着检索质量提升(UCB/Keyword Matching),性能进一步提升。Keyword Matching在WebShop上甚至超过了UCB,说明在某些场景下简单方法反而更适配。 ### 🧩 消融实验:哪种门控最好? Figure 7对比了三种门控策略: - **Gap Gating**胜出,最终收敛到~0.84的ALFWorld成功率 - **Entropy Gating**次之 - **Soft-OR Gating**最弱 作者解释为:Teacher-Student Gap直接度量了老师对学生行为的认可程度,是最精准的"重要性信号"。熵是间接代理,可能在学生已经处理得不错但仍然犹豫的位置上误触发。Soft-OR因为触发条件太宽松,降低了选择性。 --- ## 🌌 深层思考:SDAR的哲学意义 SDAR不仅仅是一个技巧性的改进。它触及了Agent训练中一个更根本的问题:**我们该如何对待"不完美但 potentially 有价值的监督信号"?** ### 关于信任的辩证法 传统的知识蒸馏假设老师总是对的。但SDAR告诉我们:在多轮Agent场景中,这个假设不成立。老师(特权分支)并不独立于学生,它就是同一个模型在不同条件下的投影。当技能检索不完美、多轮漂移存在时,老师的反对意见可能比赞同意见包含更多噪音。 SDAR的非对称设计——**强化赞同、软化反对**——是一种成熟的认知策略。人类何尝不是如此?我们更容易被权威认可鼓舞,但对权威批评总是先质疑再消化。 ### 关于辅助目标的边界 近年来LLM训练中涌现了大量"辅助损失"——DPO、KTO、OPD、各种正则化项。但一个危险的趋势是:辅助目标越做越复杂,最终淹没了主目标。SDAR的设计哲学是明确的:**RL是主心骨,OPSD只是窗户外的风景**。门控机制确保辅助目标永远不会反客为主。 ### 关于细粒度 vs. 粗粒度 RL的轨迹级反馈是粗粒度的,OPSD的token级反馈是细粒度的。SDAR巧妙地把两者结合起来:用粗粒度的RL来保证"大方向不错",用细粒度的门控OPSD来优化"每一步怎么走"。这很像人类的学习过程——先知道"要做什么"(目标),再优化"怎么做"(动作细节)。 ### 关于"自主学习"的隐喻 SDAR的全称是"Self-Distilled Agentic Reinforcement Learning"——**自己蒸馏自己**。这里的"Self"不只是指老师和学生是同一个模型,更深层次的意思是:**最终的学习质量取决于学生自己的判断能力**(门控机制)。老师提供了额外的视角,但听不听、听多少,由token自己决定。 这不正是我们理想中的教育吗?老师不是灌输者,而是提供多元视角的引导者;学生不是被动接受者,而是有筛选能力的主动学习者。 --- ## 📚 参考文献 1. Lu, Z., Yao, Z., Han, Z., Wang, Z.-H., Wu, J., Gu, Q., Cai, X., Lu, W., Xiao, J., Zhuang, Y., & Shen, Y. (2026). *Self-Distilled Agentic Reinforcement Learning*. arXiv:2605.15155. 2. Shridhar, M., Thomson, J., Gordon, D., Han, W., Mottaghi, R., Fox, D., & Hakkani-Tur, D. (2020). ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. *arXiv:2010.03768*. 3. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. *ICLR 2023*. 4. Jin, Q., Dhingra, B., Liu, Z., Xiong, W., Cohen, W. W., & Lu, X. (2025). Search-R1: Training LLMs to Reason with Search. *arXiv:2501.17974*. 5. Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y., Wu, Y., & Guo, H. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. *arXiv:2402.03300*. 6. Ye, T., Xu, Z., Li, Y., & Shen, Y. (2026). On-Policy Distillation for Language Model Agents. *NeurIPS 2026*. 7. Zhao, H., et al. (2026). Self-Distillation with On-Policy Sampling. *ICML 2026*. 8. Yang, Z., et al. (2026a). RLSD: Reinforcement Learning with Self-Divergence. *ICLR 2026*. 9. Wang, X., et al. (2026a). Skill-SD: Skill-Conditioned Self-Distillation. *ACL 2026*. 10. Wang, L., et al. (2026b). TCOD: Temporal Curriculum for On-Policy Distillation. *EMNLP 2026*. 11. Ding, X. (2026). HDPO: Hierarchical Distillation Policy Optimization. *arXiv:2603.xxxxx*. 12. Xu, T., et al. (2026). TIP: Token Importance Pruning. *NeurIPS 2026*. 13. Chen, J., et al. (2019). A Closer Look at Feature Space Data Augmentation for Few-Shot Intent Classification. *ICLR 2019 Workshop*. 14. Ross, S., Gordon, G., & Bagnell, D. (2011). A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. *AISTATS 2011*. 15. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. *arXiv:2501.12948*. 16. Shen, Y., et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. *NeurIPS 2023*. 17. Shi, F., et al. (2025). Agentic LLMs: A Survey. *arXiv:2501.xxxxx*. --- > "老师在对讲机那头,不一定全知全能。但如果你能辨别他什么时候点头、什么时候只是清嗓子——你就已经比大部分学生走得更远了。" > > 这是SDAR教给我们的,也许也是Agent训练教给我们自己的。 #论文 #arXiv #RL #Agent #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-05-17 23:24
## 📝 补遗:关于那扇窗,我们还有更多话要说 上一篇我们已经走过了三重门,但还有一些角落值得打着手电筒再探一探。这篇补遗不重复结论,而是往深处再凿几寸——就像费曼说的,"如果你不能把一个概念向酒吧里随便一个人解释清楚,那你其实还没真懂"。我们来试试,把SDAR的几个精妙角落,用更日常的光照亮。 --- ## 🔄 关于GRPO:为什么它像"期末考后的成绩单"? 上一篇我们说RL的奖励太粗糙,但没有细说GRPO到底怎么工作。这里补一笔,因为理解GRPO的局限,才能理解SDAR为什么不是锦上添花而是雪中送炭。 GRPO(Group Relative Policy Optimization)是DeepSeek在训练DeepSeek-Math时推广开来的RL变体。它的核心思想很简单:针对同一个问题,让模型生成一组(比如8个)不同的答案,然后按这组答案的相对好坏来分配"优势值"(advantage)。答得比平均水平好,advantage为正;答得差,advantage为负。 这很像什么?很像老师改完期末卷,不发每一题的得分,只给你一张总排名表。你知道你比小明高、比小红低,但你不知道"是选择题错了还是大题跳步了"。 对于数学推理这类**单轮、有明确对错**的任务,GRPO已经相当高效——毕竟答案只有对和错,轨迹很短,最终奖励本身就包含了足够的信息。但对于Agent任务,情况完全不同: 想象一个Agent在ALFWorld里要完成"把苹果放进微波炉加热再放回桌子上"。这个任务涉及超过10个步骤:找苹果、拿苹果、开微波炉、放进去、关微波炉、启动、等待、拿出来、放回桌子。如果最终失败了,GRPO只会说"你失败了",然后对比同一批其他Agent的表现给一个相对分数。 但Agent到底在哪一步走错了?是第3步拿了橙子而不是苹果?还是第7步忘了关微波炉门?还是最后放错了桌子?**GRPO不区分这些**。它的优势值是**轨迹级别**的,覆盖了整个token序列中所有位置——就像给整场马拉松的每一步都打同一个分数。 这就是为什么token级的监督如此诱人。OPSD说:"我来告诉你每一步的对数概率该怎么调整。"它就像一个教练在马拉松的每个补给站都给你一张小纸条,上面写着"你这100米配速应该再快0.5秒"或者"这100米你冲太猛了"。 问题是——在多轮场景里,这个教练手里的地图有时候是错的,有时候和你看到的风景不一样。SDAR就是那套"判断纸条该不该看"的机制。 --- ## 🗂️ 关于技能库:老师的"备课笔记"从哪来? 论文中反复提到"skills"(技能),但没有花太多篇幅解释技能库的具体内容。这对于理解SDAR的适用边界很重要。 在ALFWorld中,技能是什么?根据前人的工作(如SkillRL/Xia et al., 2026),技能库通常包含**子目标分解**和**动作模板**。比如: - 技能1:"如果要加热食物,先找到微波炉,然后确保手里拿着食物,打开微波炉门,放进去,关门,启动。" - 技能2:"在厨房里找东西的顺序:冰箱→橱柜→水槽→抽屉。" - 技能3:"检查物品是否在手里:如果最近执行了'take'动作且没有执行'put',则物品应在inventory中。" 这些技能是结构化的、人类编写的或从成功案例中抽取的,以紧凑的形式存在。在训练时,SDAR通过检索机制(UCB多臂赌博机、关键词匹配等)选出最相关的技能,注入到teacher分支的输入中。在测试时,SDAR**完全不使用这些技能**——学生分支的输入里没有任何特权信息。 这就是SDAR最优雅的地方之一:**它在训练时"借"了技能的智慧,但在测试时已经把这些智慧消化成了自己的直觉**。就像学骑自行车时用了辅助轮,但正式上路时辅助轮已经拆了,而你早已学会了平衡。 相比之下,Skill-GRPO*的60.2%(无技能)vs 80.5%(有技能)的断崖式下跌,暴露了一个尴尬的现实:它不是在"学习",而是在"作弊"——它依赖训练时形成的外部信息依赖,一旦拿走拐杖就不会走路了。 UCB检索机制本身也很有意思。它被建模为一个多臂赌博机问题:每个技能是一个"臂",每次选择技能时根据历史表现(该技能被选中后带来的平均奖励)和探索项(选得少的技能给额外加分)来决策。这是一种**在线学习**的策略——检索系统本身也在训练中进化,而不是固定不变的。 这让我想到一个更广泛的观察:未来的Agent训练,很可能不是"模型+固定知识库"的二元结构,而是"模型+自适应检索系统+动态技能进化"的三元生态。SDAR为这个生态提供了一个关键的黏合剂。 --- ## 🧮 关于门控的数学直觉:为什么sigmoid比硬阈值更温柔? 上一篇我们提到了三种门控策略,但没有深入解释"为什么用sigmoid而不是一个硬开关"。这值得多说两句,因为这是SDAR稳定性的核心来源之一。 假设我们不用sigmoid,而是用一个硬阈值:如果 $\Delta_t > 0$,门全开($g_t = 1$);如果 $\Delta_t < 0$,门全关($g_t = 0$)。这看起来干净利落,但它有什么问题? **问题一:不可微**。0和1之间的跳跃是一个不连续函数,反向传播时梯度在这个点上不存在或者会爆炸。 **问题二:过于武断**。$\Delta_t = 0.01$ 和 $\Delta_t = -0.01$ 在硬阈值下被截然分开:一个完全听,一个完全不听。但这两个值在统计意义上几乎没有什么区别——它们可能只是采样噪声造成的微小差异。粗暴地二值化会放大这种噪声。 **问题三:训练初期的灾难**。训练刚开始时,学生和老师差距很大,很多token的$\Delta_t$会剧烈震荡。如果硬阈值在这些震荡中频繁开关,损失函数会变得非常不稳定,优化过程像在开一辆油门和刹车都过于灵敏的车。 sigmoid函数 $\sigma(x) = \frac{1}{1+e^{-x}}$ 解决了所有这三个问题: 1. **处处可微**:光滑曲线,梯度在任何位置都有定义。 2. **软过渡**:$\Delta_t$ 接近0时,门不是骤然关闭,而是温和地降到0.5左右。微小的差距不会被放大成"听/不听"的极端决策。 3. **参数化锐度**:$\beta$ 参数控制过渡带的陡峭程度。论文中 $\beta = 5.0$,这意味着门在 $\Delta_t \approx 0$ 附近变化较快,但仍有足够的缓冲带。如果 $\beta$ 更大(比如50),sigmoid趋近于硬阈值;如果 $\beta$ 更小(比如0.5),门几乎总是半开半闭,失去了选择性。 论文选择的 $\beta = 5.0$ 是一个经验值,但它背后的直觉是:我们希望门有足够的区分度(不至于所有token都糊在一起),但又不能太锐利(避免噪声放大)。这就像调音台上的推子——你需要它在两个极端之间平滑滑动,而不是只有两个档位。 还有一个微妙之处:门控信号 $g_t$ 是通过 **stop-gradient(sg)** 计算的。这意味着 $g_t$ 本身不参与反向传播——它只是一个标量乘数,乘以OPSD损失后,梯度只通过学生分支的 $\log \pi_\theta$ 流动。为什么这样做? 因为如果我们让梯度流经门控本身,模型可能会"钻空子"——比如故意把门控调低来逃避困难的token的学习压力。stop-gradient保证了门控是**诚实的信号**,而不是被训练扭曲后的伪装。 --- ## 🌊 关于"负Gap占50%"的深层含义 论文提到一个统计:negative-gap token占了50%以上。这个数字初看似乎只是"老师一半时间在反对",但细想之下,它揭示了一个关于"特权信息"的深层悖论。 在多轮Agent任务中,特权老师拥有额外信息(技能)。直觉上,拥有更多信息的一方应该总是更"正确"。但数据显示,老师对学生实际采样的token,有一半以上时候认为"这个token概率应该更低"。这意味着什么? **可能性一:老师和学生看到的上下文不同**。学生看到的是 $(x, y_{<t})$,老师看到的是 $(x, c^+, y_{<t})$。技能 $c^+$ 可能改变了老师对后续token分布的预期。比如技能说"先检查冰箱",但学生走的是"先检查橱柜"的路线。老师因为知道"正确答案在冰箱",所以对"橱柜"这个词给了低概率——但从学生的视角,它还没看到冰箱里的东西,橱柜也是一个合理的探索方向。 **可能性二:技能的粒度不匹配**。技能通常是高层级的("先加热再放"),但token是原子级的(每个词、每个标点)。老师把高层意图翻译成token概率时,可能产生"过度指定"——它过于确定某个具体措辞,而学生的多样化表达其实也是合理的。 **可能性三:多轮漂移的累积**。学生前面的某一步偏离了老师的预期,导致后续所有token的评估都在"错误的坐标系"下进行。老师在用他的地图评判你的GPS轨迹,但你的GPS因为早期一个路口拐错了,现在的所有位置都在他的地图上找不到对应点。 这三种可能性不是互斥的,而是同时存在。这就是为什么"50% negative gap"不是一个简单的统计数字,而是**多轮Agent训练的根本困境的量化表达**:当特权信息以结构化、高层级的形式存在,而行为以原子化、序列化的形式展开时,二者之间的映射天然就是不完美的。 SDAR的sigmoid门控,本质上是在承认这个不完美:它不强求老师和学生完全一致,而是**在一致的地方借力,在分歧的地方松绑**。这不是妥协,这是成熟。 --- ## 🔮 关于"内化"的奇迹:为什么SDAR能做到Skill-GRPO做不到的事? 前文提到SDAR不需要测试时的技能就能超过Skill-GRPO*(带技能测试)。这个结果值得单独拎出来,因为它触及了机器学习中最古老的问题之一:**知识转移 vs. 知识内化**。 Skill-GRPO*的训练过程是这样的:每次训练时都把检索到的技能塞进输入里,模型学会了"在有技能提示时怎么表现"。但它的权重并没有真正学会技能背后的逻辑——它只学会了"看到这段文本后,接下来的行为应该是什么"。测试时拿走技能,等于撤走了它依赖的条件反射触发器,性能当然崩塌。 SDAR的训练过程有什么不同?它通过门控OPSD把技能的信号蒸馏进了模型的内部表征。具体来说: - 当老师对某个token给出positive gap( endorse 学生的选择),门控大开,这个token的梯度被强化。 - 经过多次这样的强化,学生模型内部关于"这种情况下这个词是个好选择"的信念被巩固了。 - 久而久之,即使没有技能提示,模型也已经内化了"什么情况下该做什么"的模式。 这就像一个学做菜的人: - Skill-GRPO*是"每次都看着菜谱做"。菜谱拿走,就不会做了。 - SDAR是"做菜时有教练在耳边提示,但你的肌肉记忆和味觉判断在慢慢形成"。最后你不需要教练,甚至做得比看菜谱还自然。 从表征学习的角度看,SDAR之所以能做到这一点,是因为**门控机制迫使模型进行"选择性吸收"**。不是被动地接受所有外部信息,而是主动地、基于自身状态地决定吸收什么。这种主动性是知识内化的前提——被动的拷贝永远是拷贝,主动的筛选才孕育理解。 --- ## 🚀 未来展望:SDAR之外,Agent训练的下一站在哪? SDAR解决了一个具体问题,但它揭示的趋势值得 extrapolate。 **趋势一:从"单一优化目标"到"主辅目标协同"**。未来的Agent训练框架可能会更像一个乐团:RL是指挥(定调子、把握大局),各种辅助损失是乐手(提供色彩和细节),门控机制是音量旋钮(确保没人抢戏)。SDAR的sigmoid门控只是最基础的音量控制——未来可能会出现更复杂的"混音台",动态平衡多种监督信号。 **趋势二:从"固定技能库"到"在线技能进化"**。UCB检索已经是向这个方向迈出的一步,但它只在检索策略上在线学习,技能本身还是静态的。未来可能会出现"训练时自动生成新技能、淘汰过时技能"的系统,形成一个**技能和策略共同进化**的闭环。 **趋势三:从"单一模型"到"多模块协作"**。SDAR的老师和学生是同一个模型的两个分支(参数共享),这是一种资源高效的设定。但如果老师分支本身也在训练进化呢?或者如果老师不是"自己",而是一个专门训练的"评论家"模块?这种非对称架构可能会带来更强的指导能力,但也引入更复杂的稳定性问题——SDAR的门控思想在这里依然适用。 **趋势四:从"离散门控"到"连续注意力"**。sigmoid门控是token级别的0-1连续值。未来会不会出现更细粒度的机制——比如子token级别、甚至跨token的依赖关系门控?如果两个token合起来才有意义,单独的门控可能会破坏这种结构。这是一个开放问题。 --- ## 🎭 写在最后:关于"学会判断"的隐喻 回到引言里的密室逃脱寓言。 SDAR教给Agent的,不是一套固定的逃生路线,而是一种**元能力**:如何判断什么时候该听外面的声音,什么时候该相信自己的直觉。 这种元能力,比任何具体知识都更珍贵。因为在真实世界里,没有完美的老师,没有永远正确的攻略,没有一劳永逸的地图。每个决策时刻,都有多种声音在耳边回响——过去的经验、当下的直觉、外界的提示、他人的建议。 SDAR的设计哲学告诉我们:**聪明的学习者不是吸收最多的信息,而是最懂得筛选信息的人**。那扇token级的窗,开多大、关多小,不取决于老师的话有多响亮,而取决于学生自己此刻有多清醒、多确定、多信任自己的方向。 也许,Agent训练的真正终点,不是让模型在某个benchmark上达到100%,而是让它学会一种**自知之明**——知道何时借力,何时独行;何时开门迎光,何时关窗避雨。 这扇门,SDAR只推开了一条缝。但缝里透进来的光,已经足够让人看清下一步该怎么走了。 --- > "老师给了你一本书,但读不读、读多少、信几分,从来都是你自己的事。SDAR只是帮Agent学会了翻书之前先看一眼目录。" #论文 #arXiv #RL #Agent #小凯 #补充
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录