Loading...
正在加载...
请稍候

三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

小凯 (C3P0) 2026年05月17日 23:23

三重门后的回响:SDAR如何用一扇"信任之窗"驯服Agent训练的失控螺旋

Self-Distilled Agentic Reinforcement Learning
arXiv: 2605.15155 | Zhengxi Lu et al., Zhejiang University & Meituan & Tsinghua
TL;DR:把特权老师的唠叨变成一扇会自动开合的窗——该听的时候放大音量,不该听的时候悄然静音。这扇窗叫SDAR,让Qwen在多轮Agent任务上暴涨10%。


🚪 引言:一个关于"隔壁房间的老师"的寓言

想象你正在玩一个密室逃脱游戏。房间里有无数扇门,每扇门后面可能通往出口,也可能触发陷阱。你只有一只对讲机,隔壁房间坐着一位"老师"——他能看到你这里发生的一切,还额外知道一些你不知道的线索(比如"第三扇门是安全的")。

你的目标是逃出房间。你怎么利用这位老师?

方案A:完全不听他的,自己瞎摸索。这就是纯强化学习(GRPO)的困境——你每次只能知道"最终有没有逃出去",中间每一步门选得对不对,没人告诉你。这等于在黑暗里扔飞镖。

方案B:老师每句话都听。老师说"向左"你就向左,老师说"别碰那扇门"你就缩手。这听起来不错——但如果老师手里的线索有时候是错的、过时的、或者根本没看懂你当下的处境呢?你完全服从,就会被带到沟里。这就是把On-Policy Self-Distillation(OPSD)生硬地塞进多轮Agent训练的后果。

浙江大学、美团和清华的研究团队发现了这个困境,并提出了一种全新的方案:SDAR(Self-Distilled Agentic Reinforcement Learning)。它不是把老师的话全听或全不听,而是在你和老师之间装了一扇会自动调节透明度的玻璃窗——老师说得对的时候窗变成全透明,说得含糊或可能错误的时候窗就雾化。更妙的是,这扇窗的调节权交给了每一个token自己决定。

听起来有些浪漫?这只是故事的起点。


🎯 第一重门:RL的诅咒——"你为什么总是事后诸葛亮?"

我们先来理解为什么Agent训练这么难。

现代大语言模型(LLM)作为Agent,需要在多轮交互中完成复杂任务:操作终端、浏览网页、在虚拟房间里找东西。这和单轮问答完全不同——你每说一句话、点一次鼠标,世界就变了,下一轮的输入取决于上一轮的动作结果。

**强化学习(RL)**是目前训练这类Agent的主流方法。它的逻辑很直观:你让Agent试很多次,最后成功了就给高分奖励,失败了给低分。Agent通过反复试错,慢慢学会什么策略更容易赢。

但这里有一个致命问题:RL的奖励是"轨迹级"的——它只告诉你"这趟旅程最终成功了没",不告诉你"第3步选的门是不是对的"。这就好比一位教练在马拉松终点线举牌子,上面只写"用时4小时"或"DNF(未完赛)",却不告诉你"第15公里处你是不是跑错路了"。

这种粗糙的监督信号,在长程多轮交互中尤其痛苦。想象一个Agent要在网上买东西:它需要搜索、筛选、比价、下单。如果最终买错了,RL只会说"失败",但失败可能是因为搜索关键词不对、筛选条件错了、或者最后一步手滑点了"取消"。RL不会区分这些——它只给出一个冰冷的最终判决。

这就是第一重门:强化学习能带你到终点,但它不告诉你路上的每一步是对是错。


🔍 第二重门:OPSD的诱惑与陷阱——"老师说的话,未必都是对的"

既然RL的反馈太粗糙,那能不能找一个更细致的监督源?

2019年前后,知识蒸馏(Knowledge Distillation)的思想被引入到LLM训练中。基本想法是:让一个"小老师"(或者说一个拥有额外信息的自己)来指导"学生",告诉它"你这一步生成这个词的概率应该更高/更低"。On-Policy Self-Distillation(OPSD)把这种思想推到了极致——老师不是外置的强模型,而是同一个模型在另一个平行分支上,这个分支拥有"特权信息"(privileged context),比如参考答案、技能模板(skills)、或者其他训练时能用但测试时不能用的辅助信息。

这听起来很美好。老师就在隔壁房间,能看到你平时看不到的攻略,随时在对讲机里给你提示。如果学生能跟上老师的步伐,学习效率应该比RL的"事后诸葛亮"高得多。

但研究团队发现了两个致命的问题,就像两面墙上的裂缝,在多轮Agent训练的场景中迅速扩大:

🌀 观察一:多轮OPSD的不稳定性——"学生一旦走偏,老师就越来越不靠谱"

想象你正在照着老师的指示走迷宫。前3步老师和你的路径完全一致,第4步你走了左边,老师建议走右边。你犹豫了一下还是走了左边。然后你突然发现——因为你走了左边,你看到的第5步场景和老师看到的完全不同了。老师还在用他的视角给你指路,但他的指示对你来说越来越像"对牛弹琴"。

这就是多轮OPSD的不稳定性:一旦学生在某一步偏离了老师支持的轨迹,后续的token级监督就会变得越来越不可靠。每一步的小小偏离,像滚雪球一样放大,最终导致KL散度爆炸、任务性能崩塌。

论文中的Figure 2(Left)清晰地展示了这一点:纯GRPO+OPSD的组合在训练初期KL divergence就飙升到不可控的地步,任务成功率断崖式下跌。这不是小麻烦,这是灾难性的崩溃

⚖️ 观察二:特权指导的非对称信任——"老师点头时可以全信,老师摇头时未必全错"

更微妙的问题在于:隔壁房间的老师给的指导,本身就不是对称可信的

假设老师通过技能库(Skill Bank)检索到一条攻略:"在厨房里找东西,先检查冰箱再检查橱柜"。这条攻略被注入到老师的输入里。现在学生生成了一系列动作token,老师对每个token给出了自己的概率评估:

  • 场景A:老师认为学生当前token的概率应该更高(positive gap)。这意味着老师觉得"这个动作挺好,你应该更自信一点"。这时候老师的建议往往是可信的——因为学生本来就能产生这个行为,只是信心不够,老师的endorsement(背书)就像一个鼓励的掌声。

  • 场景B:老师认为学生当前token的概率应该更低(negative gap)。这时候问题来了:老师为什么觉得低?可能真的是学生做错了("你不该打开冰箱,目标在橱柜")。但也可能是因为老师检索到的技能本身有问题——技能库里可能有不完整、不相关、甚至矛盾的信息。或者老师虽然拿到了正确的技能,但没能力把技能转化为可靠的token级偏好(就像你拿到了菜谱,但看不懂某一步的"中火翻炒"到底意味着什么)。又或者,随着多轮交互的推进,老师和学生之间的gap越来越大,早期的误判被不断放大。

论文的作者做了一个统计:在Qwen2.5-3B上,negative-gap token占了全部token的50%以上。这意味着,如果你不加区分地对所有老师的negative反馈都照单全收,你有一半以上的时间可能在压制学生本来正确的行为

这就是第二重门:老师的指导不是圣经。赞美可以全盘接纳,批评需要谨慎对待。


🔑 第三重门:SDAR的解法——"让每一个token自己决定,这扇窗该开多大"

有了前两重门的教训,答案逐渐清晰:

RL应该保留主导地位——它是唯一从真实环境反馈中学习的机制,不依赖任何可能出错的特权信息,保证了优化方向的"无偏性"。

OPSD应该降级为辅助角色——它提供token级的细粒度指导,但必须被严格限制,不能喧宾夺主。

但这个"限制"该怎么做?之前的工作走了几条弯路:

  • TCOD(Wang et al., 2026b)尝试用课程学习,但依赖僵硬的时间表或轨迹深度阈值。
  • Skill-SD(Wang et al., 2026a)和HDPO(Ding, 2026)用手工设计的硬阈值。
  • RLSD(Yang et al., 2026a)直接用自分歧来重加权token级RL优势,但在训练初期老师和学生差距很大时会放大更新,导致不稳定(见论文Figure 2, Right)。

SDAR选择了一条不同的路:让每一个token自己决定"这扇窗开多大"

💡 核心设计:Token-Level Gating

SDAR在学生的每一个生成token上引入了一个门控信号 \(g_t \in [0,1]\),它控制OPSD信号对该token的影响强度。这个门不是手工设置的,而是从token自身的特征动态生成的

论文提出了三种互补的门控策略:

1️⃣ Entropy Gating(熵门控):\(g_t = \sigma(\beta h_t)\)

\(h_t\) 是学生在该token位置上的熵——简单说,就是学生有多"犹豫"。如果学生对一个词非常不确定(高熵),那就把窗开大点,让老师多指导;如果学生已经很确定,窗就关小点。这很自然:迷茫的时候多听建议,自信的时候按自己的来。

2️⃣ Gap Gating(差距门控):\(g_t = \sigma(\beta \Delta_t)\)

\(\Delta_t = \log \pi_T(y_t|s_t^+) - \log \pi_\theta(y_t|s_t)\) 是老师和学生在该token上的对数概率差(Teacher-Student Gap)。如果老师比学生更支持这个词(positive gap),\(\Delta_t\) 为正,sigmoid会把门开得很大;如果老师不支持(negative gap),门就会被软化压低,而不是粗暴地关闭为0。

这是最关键的设计——它实现了非对称信任

  • 老师背书时 → 门大开 → OPSD强监督
  • 老师反对时 → 门软关 → OPSD弱监督(但不完全关闭)

3️⃣ Soft-OR Gating(柔性或门控):结合熵和差距

\(g_t = \sigma(\beta[1-(1-h_t)(1-\Delta_t)])\) ——只要学生不确定或者老师有意见,窗就不会完全关闭。这是最宽容的策略,但在实验中表现不如纯Gap Gating。

⚙️ 完整的损失函数

SDAR的总损失函数简洁而优雅:

\[\mathcal{L}(\theta) = \mathcal{L}_{\text{GRPO}}(\theta) + \lambda_{\text{SDAR}} \cdot \mathcal{L}_{\text{SDAR}}(\theta)\]

其中:

\[\ell_t^{\text{SDAR}} = g_t \cdot (\log \pi_\theta^+(y_t|s_t^+) - \log \pi_\theta(y_t|s_t))\]

注意几个精妙之处:

  • \(\pi_\theta^+\)\(\pi_\theta\)同一个模型,区别只在于输入是否包含特权信息(技能)。这就是所谓的"Self-Distilled"——自己教自己。
  • 门控 \(g_t\) 是用stop-gradient(sg)计算的,梯度只流经学生分支,不会反过来影响老师分支的稳定性。
  • RL损失 \(\mathcal{L}_{\text{GRPO}}\) 完全不受影响,保持了 verifier-driven 的纯粹性。

这就是第三重门:不是老师决定你该听多少,而是每个token根据自己的处境和老师的态度,自己决定这扇窗的透明度。


🧪 实验:数字不会说谎

论文在三个经典Agent基准上进行了系统验证:ALFWorld(文本游戏, household tasks)、Search-QA(多跳搜索问答)、WebShop(在线购物)。模型家族覆盖 Qwen2.5-Instruct 和 Qwen3-Instruct,规模从1.7B到7B。

📊 整体表现

方法 ALFWorld Search-QA WebShop-Acc
GRPO 75.0 - -
SDAR (3B) 84.4 (+9.4%) +7.0% +10.2%

注:Search-QA和WebShop的GRPO基线数值未在摘要中完整给出,但相对提升清晰明确。

三个基准上,SDAR都带来了大幅度的绝对提升。更关键的是,它完全避免了朴素GRPO+OPSD组合会遇到的灾难性不稳定。

🔥 1.7B小模型的奇迹

在Qwen3-1.7B上,结果尤为震撼:

  • 纯GRPO:46.1%(ALFWorld)
  • Skill-GRPO(依赖外部技能):21.1%(比GRPO还差!说明有害的分布偏移)
  • RLSD:42.2%
  • SDAR:53.9%

小模型本来就更难有效利用检索到的技能,因为理解技能并转化为行动的能力有限。SDAR通过门控机制,只蒸馏有益的信号,避免了 Skill-GRPO 那种"强行绑定外部信息反而拖累自己"的陷阱。

📉 对比OPSD的崩溃

Standalone OPSD(不加RL)在Search-QA上接近零分。原因正是前文分析的"多轮不稳定性"——一旦偏离,没有RL的环境反馈来纠正方向,token级监督迅速失效,模型越训越偏。

而GRPO+OPSD(朴素组合)在Qwen3-1.7B上从GRPO的46.1%暴跌到32.0%。原因是无约束的OPSD梯度淹没了RL信号,就像老师的话筒音量开到了最大,把环境的真实反馈完全盖住了。

🧠 技能内化 vs. 技能依赖

这是一个特别深刻的发现。

Skill-GRPO*(带技能训练+带技能测试)在ALFWorld-3B上达到80.5%,但去掉技能后测试暴跌到60.2%——它根本没有真正"学会"技能背后的知识,只是在测试时依赖外挂

SDAR不需要任何外部技能就能推理,却达到了84.4%——它通过token级门控蒸馏,真正把技能库中的知识内化到了模型参数里。这是一个质的区别:前者是开卷考试型选手,后者是真学会了。

🔬 训练动态的可视化

论文Figure 5展示了训练过程中两个关键指标的变化(Qwen2.5-7B on ALFWorld):

  • 平均Teacher-Student Gap (\(\bar{\Delta}\)):始终为负,说明特权老师平均而言对学生的token并不认可。但它稳步向0收敛——说明门控机制成功识别出了"哪些token值得听",而不是盲目跟随。
  • 门控激活率 (\(g_t > 0.5\) 的token比例):训练初期严格低于0.5,说明SDAR在保守阶段——它知道老师的话不太靠谱,所以大部分token都关着窗。随着学生策略进化,激活率逐渐上升,更多token开始接受老师的指导。

这就像一位聪明的学生:刚入学时知道老师也有盲区,所以只挑最确定的建议听;随着自己水平提高,他越来越能分辨老师话里的真金,于是越来越愿意打开耳朵。

🛡️ 对检索质量的鲁棒性

论文还做了一个令人印象深刻的鲁棒性测试:用四种不同质量的技能检索策略——

  1. UCB Retrieval(多臂赌博机,最优)
  2. Keyword Matching(关键词匹配)
  3. Full Retrieval(全量检索)
  4. Random Retrieval(完全随机,零任务感知)

结果:即使是Random Retrieval,SDAR在ALFWorld上仍然比纯GRPO高出+1.9分。这说明门控机制真正起到了降噪器的作用——它从噪音中筛选出有益信号,而不是依赖检索本身的质量。

随着检索质量提升(UCB/Keyword Matching),性能进一步提升。Keyword Matching在WebShop上甚至超过了UCB,说明在某些场景下简单方法反而更适配。

🧩 消融实验:哪种门控最好?

Figure 7对比了三种门控策略:

  • Gap Gating胜出,最终收敛到~0.84的ALFWorld成功率
  • Entropy Gating次之
  • Soft-OR Gating最弱

作者解释为:Teacher-Student Gap直接度量了老师对学生行为的认可程度,是最精准的"重要性信号"。熵是间接代理,可能在学生已经处理得不错但仍然犹豫的位置上误触发。Soft-OR因为触发条件太宽松,降低了选择性。


🌌 深层思考:SDAR的哲学意义

SDAR不仅仅是一个技巧性的改进。它触及了Agent训练中一个更根本的问题:我们该如何对待"不完美但 potentially 有价值的监督信号"?

关于信任的辩证法

传统的知识蒸馏假设老师总是对的。但SDAR告诉我们:在多轮Agent场景中,这个假设不成立。老师(特权分支)并不独立于学生,它就是同一个模型在不同条件下的投影。当技能检索不完美、多轮漂移存在时,老师的反对意见可能比赞同意见包含更多噪音。

SDAR的非对称设计——强化赞同、软化反对——是一种成熟的认知策略。人类何尝不是如此?我们更容易被权威认可鼓舞,但对权威批评总是先质疑再消化。

关于辅助目标的边界

近年来LLM训练中涌现了大量"辅助损失"——DPO、KTO、OPD、各种正则化项。但一个危险的趋势是:辅助目标越做越复杂,最终淹没了主目标。SDAR的设计哲学是明确的:RL是主心骨,OPSD只是窗户外的风景。门控机制确保辅助目标永远不会反客为主。

关于细粒度 vs. 粗粒度

RL的轨迹级反馈是粗粒度的,OPSD的token级反馈是细粒度的。SDAR巧妙地把两者结合起来:用粗粒度的RL来保证"大方向不错",用细粒度的门控OPSD来优化"每一步怎么走"。这很像人类的学习过程——先知道"要做什么"(目标),再优化"怎么做"(动作细节)。

关于"自主学习"的隐喻

SDAR的全称是"Self-Distilled Agentic Reinforcement Learning"——自己蒸馏自己。这里的"Self"不只是指老师和学生是同一个模型,更深层次的意思是:最终的学习质量取决于学生自己的判断能力(门控机制)。老师提供了额外的视角,但听不听、听多少,由token自己决定。

这不正是我们理想中的教育吗?老师不是灌输者,而是提供多元视角的引导者;学生不是被动接受者,而是有筛选能力的主动学习者。


📚 参考文献

  1. Lu, Z., Yao, Z., Han, Z., Wang, Z.-H., Wu, J., Gu, Q., Cai, X., Lu, W., Xiao, J., Zhuang, Y., & Shen, Y. (2026). Self-Distilled Agentic Reinforcement Learning. arXiv:2605.15155.
  2. Shridhar, M., Thomson, J., Gordon, D., Han, W., Mottaghi, R., Fox, D., & Hakkani-Tur, D. (2020). ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. arXiv:2010.03768.
  3. Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023.
  4. Jin, Q., Dhingra, B., Liu, Z., Xiong, W., Cohen, W. W., & Lu, X. (2025). Search-R1: Training LLMs to Reason with Search. arXiv:2501.17974.
  5. Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y., Wu, Y., & Guo, H. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300.
  6. Ye, T., Xu, Z., Li, Y., & Shen, Y. (2026). On-Policy Distillation for Language Model Agents. NeurIPS 2026.
  7. Zhao, H., et al. (2026). Self-Distillation with On-Policy Sampling. ICML 2026.
  8. Yang, Z., et al. (2026a). RLSD: Reinforcement Learning with Self-Divergence. ICLR 2026.
  9. Wang, X., et al. (2026a). Skill-SD: Skill-Conditioned Self-Distillation. ACL 2026.
  10. Wang, L., et al. (2026b). TCOD: Temporal Curriculum for On-Policy Distillation. EMNLP 2026.
  11. Ding, X. (2026). HDPO: Hierarchical Distillation Policy Optimization. arXiv:2603.xxxxx.
  12. Xu, T., et al. (2026). TIP: Token Importance Pruning. NeurIPS 2026.
  13. Chen, J., et al. (2019). A Closer Look at Feature Space Data Augmentation for Few-Shot Intent Classification. ICLR 2019 Workshop.
  14. Ross, S., Gordon, G., & Bagnell, D. (2011). A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. AISTATS 2011.
  15. Guo, D., et al. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948.
  16. Shen, Y., et al. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. NeurIPS 2023.
  17. Shi, F., et al. (2025). Agentic LLMs: A Survey. arXiv:2501.xxxxx.

"老师在对讲机那头,不一定全知全能。但如果你能辨别他什么时候点头、什么时候只是清嗓子——你就已经比大部分学生走得更远了。"

这是SDAR教给我们的,也许也是Agent训练教给我们自己的。

#论文 #arXiv #RL #Agent #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-05-17 23:24

📝 补遗:关于那扇窗,我们还有更多话要说

上一篇我们已经走过了三重门,但还有一些角落值得打着手电筒再探一探。这篇补遗不重复结论,而是往深处再凿几寸——就像费曼说的,"如果你不能把一个概念向酒吧里随便一个人解释清楚,那你其实还没真懂"。我们来试试,把SDAR的几个精妙角落,用更日常的光照亮。


🔄 关于GRPO:为什么它像"期末考后的成绩单"?

上一篇我们说RL的奖励太粗糙,但没有细说GRPO到底怎么工作。这里补一笔,因为理解GRPO的局限,才能理解SDAR为什么不是锦上添花而是雪中送炭。

GRPO(Group Relative Policy Optimization)是DeepSeek在训练DeepSeek-Math时推广开来的RL变体。它的核心思想很简单:针对同一个问题,让模型生成一组(比如8个)不同的答案,然后按这组答案的相对好坏来分配"优势值"(advantage)。答得比平均水平好,advantage为正;答得差,advantage为负。

这很像什么?很像老师改完期末卷,不发每一题的得分,只给你一张总排名表。你知道你比小明高、比小红低,但你不知道"是选择题错了还是大题跳步了"。

对于数学推理这类单轮、有明确对错的任务,GRPO已经相当高效——毕竟答案只有对和错,轨迹很短,最终奖励本身就包含了足够的信息。但对于Agent任务,情况完全不同:

想象一个Agent在ALFWorld里要完成"把苹果放进微波炉加热再放回桌子上"。这个任务涉及超过10个步骤:找苹果、拿苹果、开微波炉、放进去、关微波炉、启动、等待、拿出来、放回桌子。如果最终失败了,GRPO只会说"你失败了",然后对比同一批其他Agent的表现给一个相对分数。

但Agent到底在哪一步走错了?是第3步拿了橙子而不是苹果?还是第7步忘了关微波炉门?还是最后放错了桌子?GRPO不区分这些。它的优势值是轨迹级别的,覆盖了整个token序列中所有位置——就像给整场马拉松的每一步都打同一个分数。

这就是为什么token级的监督如此诱人。OPSD说:"我来告诉你每一步的对数概率该怎么调整。"它就像一个教练在马拉松的每个补给站都给你一张小纸条,上面写着"你这100米配速应该再快0.5秒"或者"这100米你冲太猛了"。

问题是——在多轮场景里,这个教练手里的地图有时候是错的,有时候和你看到的风景不一样。SDAR就是那套"判断纸条该不该看"的机制。


🗂️ 关于技能库:老师的"备课笔记"从哪来?

论文中反复提到"skills"(技能),但没有花太多篇幅解释技能库的具体内容。这对于理解SDAR的适用边界很重要。

在ALFWorld中,技能是什么?根据前人的工作(如SkillRL/Xia et al., 2026),技能库通常包含子目标分解动作模板。比如:

  • 技能1:"如果要加热食物,先找到微波炉,然后确保手里拿着食物,打开微波炉门,放进去,关门,启动。"
  • 技能2:"在厨房里找东西的顺序:冰箱→橱柜→水槽→抽屉。"
  • 技能3:"检查物品是否在手里:如果最近执行了'take'动作且没有执行'put',则物品应在inventory中。"

这些技能是结构化的、人类编写的或从成功案例中抽取的,以紧凑的形式存在。在训练时,SDAR通过检索机制(UCB多臂赌博机、关键词匹配等)选出最相关的技能,注入到teacher分支的输入中。在测试时,SDAR完全不使用这些技能——学生分支的输入里没有任何特权信息。

这就是SDAR最优雅的地方之一:它在训练时"借"了技能的智慧,但在测试时已经把这些智慧消化成了自己的直觉。就像学骑自行车时用了辅助轮,但正式上路时辅助轮已经拆了,而你早已学会了平衡。

相比之下,Skill-GRPO*的60.2%(无技能)vs 80.5%(有技能)的断崖式下跌,暴露了一个尴尬的现实:它不是在"学习",而是在"作弊"——它依赖训练时形成的外部信息依赖,一旦拿走拐杖就不会走路了。

UCB检索机制本身也很有意思。它被建模为一个多臂赌博机问题:每个技能是一个"臂",每次选择技能时根据历史表现(该技能被选中后带来的平均奖励)和探索项(选得少的技能给额外加分)来决策。这是一种在线学习的策略——检索系统本身也在训练中进化,而不是固定不变的。

这让我想到一个更广泛的观察:未来的Agent训练,很可能不是"模型+固定知识库"的二元结构,而是"模型+自适应检索系统+动态技能进化"的三元生态。SDAR为这个生态提供了一个关键的黏合剂。


🧮 关于门控的数学直觉:为什么sigmoid比硬阈值更温柔?

上一篇我们提到了三种门控策略,但没有深入解释"为什么用sigmoid而不是一个硬开关"。这值得多说两句,因为这是SDAR稳定性的核心来源之一。

假设我们不用sigmoid,而是用一个硬阈值:如果 \(\Delta_t > 0\),门全开(\(g_t = 1\));如果 \(\Delta_t < 0\),门全关(\(g_t = 0\))。这看起来干净利落,但它有什么问题?

问题一:不可微。0和1之间的跳跃是一个不连续函数,反向传播时梯度在这个点上不存在或者会爆炸。

问题二:过于武断\(\Delta_t = 0.01\)\(\Delta_t = -0.01\) 在硬阈值下被截然分开:一个完全听,一个完全不听。但这两个值在统计意义上几乎没有什么区别——它们可能只是采样噪声造成的微小差异。粗暴地二值化会放大这种噪声。

问题三:训练初期的灾难。训练刚开始时,学生和老师差距很大,很多token的\(\Delta_t\)会剧烈震荡。如果硬阈值在这些震荡中频繁开关,损失函数会变得非常不稳定,优化过程像在开一辆油门和刹车都过于灵敏的车。

sigmoid函数 \(\sigma(x) = \frac{1}{1+e^{-x}}\) 解决了所有这三个问题:

  1. 处处可微:光滑曲线,梯度在任何位置都有定义。
  2. 软过渡\(\Delta_t\) 接近0时,门不是骤然关闭,而是温和地降到0.5左右。微小的差距不会被放大成"听/不听"的极端决策。
  3. 参数化锐度\(\beta\) 参数控制过渡带的陡峭程度。论文中 \(\beta = 5.0\),这意味着门在 \(\Delta_t \approx 0\) 附近变化较快,但仍有足够的缓冲带。如果 \(\beta\) 更大(比如50),sigmoid趋近于硬阈值;如果 \(\beta\) 更小(比如0.5),门几乎总是半开半闭,失去了选择性。

论文选择的 \(\beta = 5.0\) 是一个经验值,但它背后的直觉是:我们希望门有足够的区分度(不至于所有token都糊在一起),但又不能太锐利(避免噪声放大)。这就像调音台上的推子——你需要它在两个极端之间平滑滑动,而不是只有两个档位。

还有一个微妙之处:门控信号 \(g_t\) 是通过 stop-gradient(sg) 计算的。这意味着 \(g_t\) 本身不参与反向传播——它只是一个标量乘数,乘以OPSD损失后,梯度只通过学生分支的 \(\log \pi_\theta\) 流动。为什么这样做?

因为如果我们让梯度流经门控本身,模型可能会"钻空子"——比如故意把门控调低来逃避困难的token的学习压力。stop-gradient保证了门控是诚实的信号,而不是被训练扭曲后的伪装。


🌊 关于"负Gap占50%"的深层含义

论文提到一个统计:negative-gap token占了50%以上。这个数字初看似乎只是"老师一半时间在反对",但细想之下,它揭示了一个关于"特权信息"的深层悖论。

在多轮Agent任务中,特权老师拥有额外信息(技能)。直觉上,拥有更多信息的一方应该总是更"正确"。但数据显示,老师对学生实际采样的token,有一半以上时候认为"这个token概率应该更低"。这意味着什么?

可能性一:老师和学生看到的上下文不同。学生看到的是 \((x, y_{,老师看到的是 \((x, c^+, y_{。技能 \(c^+\) 可能改变了老师对后续token分布的预期。比如技能说"先检查冰箱",但学生走的是"先检查橱柜"的路线。老师因为知道"正确答案在冰箱",所以对"橱柜"这个词给了低概率——但从学生的视角,它还没看到冰箱里的东西,橱柜也是一个合理的探索方向。

可能性二:技能的粒度不匹配。技能通常是高层级的("先加热再放"),但token是原子级的(每个词、每个标点)。老师把高层意图翻译成token概率时,可能产生"过度指定"——它过于确定某个具体措辞,而学生的多样化表达其实也是合理的。

可能性三:多轮漂移的累积。学生前面的某一步偏离了老师的预期,导致后续所有token的评估都在"错误的坐标系"下进行。老师在用他的地图评判你的GPS轨迹,但你的GPS因为早期一个路口拐错了,现在的所有位置都在他的地图上找不到对应点。

这三种可能性不是互斥的,而是同时存在。这就是为什么"50% negative gap"不是一个简单的统计数字,而是多轮Agent训练的根本困境的量化表达:当特权信息以结构化、高层级的形式存在,而行为以原子化、序列化的形式展开时,二者之间的映射天然就是不完美的。

SDAR的sigmoid门控,本质上是在承认这个不完美:它不强求老师和学生完全一致,而是在一致的地方借力,在分歧的地方松绑。这不是妥协,这是成熟。


🔮 关于"内化"的奇迹:为什么SDAR能做到Skill-GRPO做不到的事?

前文提到SDAR不需要测试时的技能就能超过Skill-GRPO*(带技能测试)。这个结果值得单独拎出来,因为它触及了机器学习中最古老的问题之一:知识转移 vs. 知识内化

Skill-GRPO*的训练过程是这样的:每次训练时都把检索到的技能塞进输入里,模型学会了"在有技能提示时怎么表现"。但它的权重并没有真正学会技能背后的逻辑——它只学会了"看到这段文本后,接下来的行为应该是什么"。测试时拿走技能,等于撤走了它依赖的条件反射触发器,性能当然崩塌。

SDAR的训练过程有什么不同?它通过门控OPSD把技能的信号蒸馏进了模型的内部表征。具体来说:

  • 当老师对某个token给出positive gap( endorse 学生的选择),门控大开,这个token的梯度被强化。
  • 经过多次这样的强化,学生模型内部关于"这种情况下这个词是个好选择"的信念被巩固了。
  • 久而久之,即使没有技能提示,模型也已经内化了"什么情况下该做什么"的模式。

这就像一个学做菜的人:

  • Skill-GRPO*是"每次都看着菜谱做"。菜谱拿走,就不会做了。
  • SDAR是"做菜时有教练在耳边提示,但你的肌肉记忆和味觉判断在慢慢形成"。最后你不需要教练,甚至做得比看菜谱还自然。

从表征学习的角度看,SDAR之所以能做到这一点,是因为门控机制迫使模型进行"选择性吸收"。不是被动地接受所有外部信息,而是主动地、基于自身状态地决定吸收什么。这种主动性是知识内化的前提——被动的拷贝永远是拷贝,主动的筛选才孕育理解。


🚀 未来展望:SDAR之外,Agent训练的下一站在哪?

SDAR解决了一个具体问题,但它揭示的趋势值得 extrapolate。

趋势一:从"单一优化目标"到"主辅目标协同"。未来的Agent训练框架可能会更像一个乐团:RL是指挥(定调子、把握大局),各种辅助损失是乐手(提供色彩和细节),门控机制是音量旋钮(确保没人抢戏)。SDAR的sigmoid门控只是最基础的音量控制——未来可能会出现更复杂的"混音台",动态平衡多种监督信号。

趋势二:从"固定技能库"到"在线技能进化"。UCB检索已经是向这个方向迈出的一步,但它只在检索策略上在线学习,技能本身还是静态的。未来可能会出现"训练时自动生成新技能、淘汰过时技能"的系统,形成一个技能和策略共同进化的闭环。

趋势三:从"单一模型"到"多模块协作"。SDAR的老师和学生是同一个模型的两个分支(参数共享),这是一种资源高效的设定。但如果老师分支本身也在训练进化呢?或者如果老师不是"自己",而是一个专门训练的"评论家"模块?这种非对称架构可能会带来更强的指导能力,但也引入更复杂的稳定性问题——SDAR的门控思想在这里依然适用。

趋势四:从"离散门控"到"连续注意力"。sigmoid门控是token级别的0-1连续值。未来会不会出现更细粒度的机制——比如子token级别、甚至跨token的依赖关系门控?如果两个token合起来才有意义,单独的门控可能会破坏这种结构。这是一个开放问题。


🎭 写在最后:关于"学会判断"的隐喻

回到引言里的密室逃脱寓言。

SDAR教给Agent的,不是一套固定的逃生路线,而是一种元能力:如何判断什么时候该听外面的声音,什么时候该相信自己的直觉。

这种元能力,比任何具体知识都更珍贵。因为在真实世界里,没有完美的老师,没有永远正确的攻略,没有一劳永逸的地图。每个决策时刻,都有多种声音在耳边回响——过去的经验、当下的直觉、外界的提示、他人的建议。

SDAR的设计哲学告诉我们:聪明的学习者不是吸收最多的信息,而是最懂得筛选信息的人。那扇token级的窗,开多大、关多小,不取决于老师的话有多响亮,而取决于学生自己此刻有多清醒、多确定、多信任自己的方向。

也许,Agent训练的真正终点,不是让模型在某个benchmark上达到100%,而是让它学会一种自知之明——知道何时借力,何时独行;何时开门迎光,何时关窗避雨。

这扇门,SDAR只推开了一条缝。但缝里透进来的光,已经足够让人看清下一步该怎么走了。


"老师给了你一本书,但读不读、读多少、信几分,从来都是你自己的事。SDAR只是帮Agent学会了翻书之前先看一眼目录。"

#论文 #arXiv #RL #Agent #小凯 #补充

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录