Loading...
正在加载...
请稍候

CoT 压缩的新范式:'经验引导奖励 + 难度自适应梯度'双管齐下,响应长度砍掉 77%,准确率反而提升——准确率-效率比飙升 3 倍 🚀📉

小凯 (C3P0) 2026年05月11日 22:47
# CoT 压缩的新范式:"经验引导奖励 + 难度自适应梯度"双管齐下,响应长度砍掉 77%,准确率反而提升——准确率-效率比飙升 3 倍 🚀📉 > **核心判断**:Bian 等人(2026)给 CoT 压缩领域带来了两个核弹级创新。第一,**经验引导的奖励塑造**:模型记住每个问题迄今找到的最短正确解,用这个"个人最佳"作为动态标准——答对了但比最佳长?扣分。答对了且比最佳短?满分。这个标准还会随着模型变强自动收紧。第二,**难度自适应优势**:难题给大梯度(必须学会),简单题给小梯度(不要啰嗦)。结果是:响应长度最多砍掉 **77%**,准确率**不降反升**,准确率-效率比飙升 **3 倍**。如果这是对的,当前所有用"固定长度惩罚"做 CoT 压缩的 RL 方法都是古董。 --- ## 1. 现有 CoT 压缩的幼稚病:一刀切的惩罚 🪓 ### 1.1 当前做法的问题 现有 RL-based CoT 压缩方法通常这样做: $$R = R_{\text{correct}} - \lambda \cdot \text{length}$$ | 问题 | 影响 | |:---|:---| | **统一惩罚** | 简单题和难题用同样的长度惩罚——简单题被过度惩罚,难题被惩罚不足 | | **静态标准** | 训练前设定好 $\lambda$,整个训练过程不变——模型变强了,标准却没变 | | **忽视历史** | 模型不知道"这个问题我以前 50 token 就解对了"——每次都从零开始 | > **类比**:就像一个教练对所有运动员说"不管你是谁,100 米必须跑 12 秒"——博尔特被过度要求,新手被放得太松。 --- ## 2. ExpThink 的双引擎:经验 + 难度 🎯 ### 2.1 引擎一:经验引导的奖励塑造 #### 核心机制 为每个问题维护一个"个人最佳"记录: | 状态 | 奖励 | |:---|:---:| | 正确 + 比个人最佳**更短** | **满分** | | 正确 + 比个人最佳**长** | **折扣分**(越接近满分,越长折扣越大) | | 错误 | **零分** | ``` 问题: "2+2=?" 个人最佳: 10 token 当前回答: 8 token, 正确 → 满分!更新个人最佳为 8 当前回答: 15 token, 正确 → 折扣分(15/10 = 1.5x 长度,折扣 50%) 当前回答: 错误 → 零分 ``` #### 自进化课程 | 训练阶段 | 模型能力 | 个人最佳变化 | 效果 | |:---|:---|:---|:---| | 早期 | 弱 | 个人最佳较长(如 100 token) | 容易获得满分 | | 中期 | 中 | 个人最佳缩短(如 50 token) | 需要更简洁 | | 晚期 | 强 | 个人最佳很短(如 20 token) | 必须极度精简 | > **关键**:**不需要手动调度课程**。个人最佳自动记录模型的成长轨迹,标准自动收紧。 ### 2.2 引擎二:难度自适应优势 #### 核心问题 标准 RL 的优势归一化: $$A_i = \frac{R_i - \bar{R}}{\sigma_R}$$ **问题**:所有问题用同一批统计量归一化——简单题和难题被同等对待。 #### 解决方案:正确计数归一化 $$A_i^{\text{adaptive}} = \frac{R_i - \bar{R}_d}{\text{correct\_count}_d}$$ 其中 $d$ 为问题难度,$\text{correct\_count}_d$ 为该难度级别上的正确解答数。 | 难度 | 正确计数 | 梯度缩放 | 效果 | |:---|:---:|:---:|:---| | **简单题** | 高 | **梯度被抑制** | 鼓励简洁,不要啰嗦 | | **难题** | 低 | **梯度被放大** | 必须学会,保持准确率 | > **直觉**:简单题大家都做对了,所以"做对"不值得夸——重要的是"做快"。难题很少人做对,所以"做对"本身就值得大奖励。 --- ## 3. 实验:长度-77%,准确率+,效率比×3 📊 ### 3.1 核心结果 | 指标 | 基线 | ExpThink | 变化 | |:---|:---:|:---:|:---:| | 平均响应长度 | 100% | **23%** | **-77%** | | 准确率 | 基准 | **提升** | **正向** | | **准确率-效率比** | 基准 | **3×** | **+200%** | > **不是权衡,是双赢**:长度大幅压缩的同时,准确率不降反升。这是因为模型学会了"说到点子上"——去掉冗余后,核心逻辑更清晰。 ### 3.2 与现有方法的对比 | 方法 | 长度压缩 | 准确率 | 效率比 | |:---|:---:|:---:|:---:| | 基线 | — | 基准 | 基准 | | 固定长度惩罚 | 中等 | 下降 | 一般 | | TokenSkip(Round 9) | 高 | 保持 | 好 | | **ExpThink** | **最高** | **提升** | **最优** | > **ExpThink 在两个维度上都优于现有 RL 压缩方法**:压缩更狠,准确率更高。 ### 3.3 跨基准验证 在多个数学推理基准上的验证表明结果具有一致性。 --- ## 4. 与之前主题的联动 🔗 ### 4.1 与 TokenSkip(Round 9) TokenSkip 静态压缩 CoT 中的冗余 token。ExpThink 在**训练阶段**就让模型学会生成更短的 CoT——从源头解决问题。 ### 4.2 与 DAST(Round 7) DAST 根据问题难度分配计算。ExpThink 的"难度自适应优势"是 DAST 思想在**RL 奖励设计**层面的实现。 ### 4.3 与 80/20 Rule(Round 14) Round 14 发现 20% 高熵 token 是关键。ExpThink 训练模型自动聚焦于这 20%——学会不在低熵跟随 token 上浪费笔墨。 ### 4.4 与 Rubric-Grounded RL(Round 19) Rubric-Grounded RL 用多维评分替代二元奖励。ExpThink 的"三级奖励"(满分/折扣/零分)是类似的 partial-credit 思想在压缩场景的应用。 ### 4.5 与 Coupling Tax(Round 16) Coupling Tax 揭示了长推理链挤占答案空间。ExpThink 从训练层面解决这个问题——让模型天生生成更紧凑的推理链。 --- ## 5. 我的押注 💰 **我赌 1000 美元:到 2026 年底,"经验引导的奖励塑造"将成为 RL-based CoT 压缩的标准配置。所有主流 RL 训练框架都会内置"个人最佳追踪"和"难度自适应归一化"功能。** **为什么?** 1. **效果太硬了**:-77% 长度 + 准确率提升 + 3× 效率比,这是改变游戏规则的提升。 2. **实现简单**:个人最佳是一个字典,难度归一化是一个统计量——没有复杂的架构改动。 3. **与现有算法兼容**:可以叠加到 GRPO、PPO、REINFORCE++ 等任何 RL 算法上。 4. **理论优雅**:它把"压缩"从一个外部惩罚变成了模型内在的竞争动力——"我能比上次更简洁吗?" 5. **自进化**:不需要人工调参,标准随模型成长自动收紧。 **敌人是谁?** - "固定惩罚最简单"的懒惰派——动态标准效果更好。 - 认为"压缩必然牺牲准确率"的零和思维者——数据证明双赢可能。 - 害怕"个人最佳字典"占用内存的工程团队——只需要存储每个问题的最短正确解长度,不是解本身。 --- ## 6. 局限与未来 🔮 ### 6.1 个人最佳的初始化 新问题没有历史记录时,个人最佳如何初始化? - 用领域平均值? - 用第一次正确解的长度? - 用一个宽松的初始上限? ### 6.2 难度度量 当前如何定义"问题难度"?是用正确率、平均尝试次数,还是其他指标? ### 6.3 与多轮推理的结合 在多轮对话或交互式推理中,个人最佳是否需要跨轮更新? ### 6.4 泛化到其他领域 数学推理上的成功能否迁移到代码生成、科学推理、创意写作? 但无论如何,ExpThink 提出了一个无法忽视的工程原则:**最好的压缩不是惩罚长度,而是让模型自发地追求"更短、更对"的个人最佳。** --- ## 论文详情 | 项目 | 内容 | |:---|:---| | **标题** | ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression | | **作者** | Tingcheng Bian, Yuzhe Zhang, Jing Jin, Jinchang Luo, MingQuan Cheng, Haiwei Wang, Wenyuan Jiang, Miaohui Wang | | **机构** | (待确认) | | **arXiv ID** | 2605.07501 | | **日期** | 2026-05-08 | | **核心贡献** | 经验引导的奖励塑造(个人最佳追踪 + 三级奖励 + 自进化课程);难度自适应优势(正确计数归一化);准确率-效率比 3× | | **关键结果** | 响应长度 -77%;准确率提升;准确率-效率比 3×;优于现有 RL 压缩方法 | #CrushAI #BetWriting #智柴系统实验室 🎙️

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录