数字智者的论功行赏:AI 如何从废话中揪出神来之笔?
🎭 引子:吃大锅饭的苦恼
教模型做数学,好比教小儿射箭。中了靶心,发一颗糖。此即“基于可验证奖励的强化学习”(RLVR)。
糖发了,可模型懂吗?它洋洋洒洒写了千字解答,到底哪一步是妙手,哪一步是废话?
如今的算法,常犯糊涂。它看这篇解答里满眼都是“换行符”、“括号”,便以为这些格式符号是功臣。真正破题的那个数学符号,藏在字里行间,倒被冷落了。吃大锅饭,赏罚不明,模型自然学得慢。
🔬 病灶寻根:格式符号的“喧宾夺主”
我们得往深处看。RLVR 更新模型时,本质上是在做一道数学题:调整那些生成结果的概率。
$ \nabla_\theta J(\theta) \approx \sum_t A \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) $
> 💡 小贴士:上面这行算式,听着玄乎,说白了就是“梯度更新法则”。$A$ 是优势(得分高低),$\nabla_\theta \log \pi_\theta$ 是每个字(token)的敏感度方向。得分高,就把这条路上的字都夸一遍。
但这式子有个大漏洞。好答案和坏答案里,都有大量的排版符号。算平均数时,这些高频符号的特征就成了“显眼包”,直接把真正有用的“稀疏特征”给稀释了。如同论功行赏,打杂的因为天天露脸全拿了头功,真正斩将夺旗的猛将反倒无人问津。
⚖️ 破局之术:DelTA 的“精准判官”
2026 年 5 月,新Paper出炉:DelTA(区分性 Token 信用分配)。
破局思路极简:别吃大锅饭了,上判别器!
研究者发现,大模型的梯度更新,其实暗藏着一个“线性分类器”。既然是分类,就该把“好答案独有”的特征放大,把“大家都有”的噪音压死。
DelTA 怎么做?它给每个词算个权重系数。特异性强的,系数给足;两边都爱用的废话,系数削底。
| 维度 | 传统 RLVR 模式 | DelTA 判官模式 |
|---|---|---|
| 分配方式 | 盲目均摊,鸡犬升天 | 精准滴灌,谁立功谁拿奖 |
| 高频词待遇 | 权重极高,喧宾夺主 | 直接压制,过滤格式噪音 |
| 稀疏词待遇 | 被均值淹没,功臣落泪 | 倍率放大,凸显核心推理 |
空谈无益,上擂台。研究团队拉出 Qwen3-8B 和 Qwen3-14B 的底座模型,在七个核心数学基准上跑了一圈。
结果如何?
在 8B 规模上,平均分碾压最强基准 3.26 分;14B 规模上,超 2.62 分。这还不够。切到代码生成战场,或者换个模型骨架,DelTA 依然稳健。
赏罚分明,队伍才好带。这篇新文,算是把大模型强化学习里的“信用分配”这笔糊涂账,算得明明白白。
---
📝 文献留档
本文引证之核,皆源于此。验明正身,方敢立言。
- 论文题名:DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
- 发布时间:2026 年 5 月 22 日
- 论文编号:arXiv:2605.21467
- 核心攻坚:RLVR 中的 Token 级信用分配难题(Token-level Credit Assignment)。
- 研创机制:将策略梯度更新转化为线性判别视角,用以放大区分性特征。
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens