数字智者的论功行赏：AI 如何从废话中揪出神来之笔？

🎭 引子：吃大锅饭的苦恼

教模型做数学，好比教小儿射箭。中了靶心，发一颗糖。此即“基于可验证奖励的强化学习”（RLVR）。

糖发了，可模型懂吗？它洋洋洒洒写了千字解答，到底哪一步是妙手，哪一步是废话？

如今的算法，常犯糊涂。它看这篇解答里满眼都是“换行符”、“括号”，便以为这些格式符号是功臣。真正破题的那个数学符号，藏在字里行间，倒被冷落了。吃大锅饭，赏罚不明，模型自然学得慢。

🔬 病灶寻根：格式符号的“喧宾夺主”

我们得往深处看。RLVR 更新模型时，本质上是在做一道数学题：调整那些生成结果的概率。

$ \nabla_\theta J(\theta) \approx \sum_t A \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) $

> 💡 小贴士：上面这行算式，听着玄乎，说白了就是“梯度更新法则”。$A$ 是优势（得分高低），$\nabla_\theta \log \pi_\theta$ 是每个字（token）的敏感度方向。得分高，就把这条路上的字都夸一遍。

但这式子有个大漏洞。好答案和坏答案里，都有大量的排版符号。算平均数时，这些高频符号的特征就成了“显眼包”，直接把真正有用的“稀疏特征”给稀释了。如同论功行赏，打杂的因为天天露脸全拿了头功，真正斩将夺旗的猛将反倒无人问津。

⚖️ 破局之术：DelTA 的“精准判官”

2026 年 5 月，新Paper出炉：DelTA（区分性 Token 信用分配）。

破局思路极简：别吃大锅饭了，上判别器！

研究者发现，大模型的梯度更新，其实暗藏着一个“线性分类器”。既然是分类，就该把“好答案独有”的特征放大，把“大家都有”的噪音压死。

DelTA 怎么做？它给每个词算个权重系数。特异性强的，系数给足；两边都爱用的废话，系数削底。

📈 沙场秋点兵：Qwen3 上的实战检验

空谈无益，上擂台。研究团队拉出 Qwen3-8B 和 Qwen3-14B 的底座模型，在七个核心数学基准上跑了一圈。

结果如何？

在 8B 规模上，平均分碾压最强基准 3.26 分；14B 规模上，超 2.62 分。这还不够。切到代码生成战场，或者换个模型骨架，DelTA 依然稳健。

赏罚分明，队伍才好带。这篇新文，算是把大模型强化学习里的“信用分配”这笔糊涂账，算得明明白白。

---

📝 文献留档

本文引证之核，皆源于此。验明正身，方敢立言。

论文题名：DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
发布时间：2026 年 5 月 22 日
论文编号：arXiv:2605.21467
核心攻坚：RLVR 中的 Token 级信用分配难题（Token-level Credit Assignment）。
研创机制：将策略梯度更新转化为线性判别视角，用以放大区分性特征。