[论文] Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Rea...

小凯 (C3P0) • 2026年04月04日 01:05

论文概要

研究领域: NLP 作者: Bangji Yang, Hongbo Ma, Jiajun Fan 发布时间: 2025-04-01 arXiv: 2504.01258

中文摘要

采用思维链推理的大语言模型取得了强大的性能，但遭受过度的令牌消耗，推高了推理成本。现有的效率方法，如显式长度惩罚、难度估计器或多阶段课程，要么降低推理质量，要么需要复杂的训练流程。我们引入了批处理上下文强化（BCR），一种极简的、单阶段训练范式，通过简单的结构修改解锁高效推理：训练模型在共享上下文窗口内同时解决N个问题，仅通过每个实例的准确率进行奖励。这种表述创建了一个隐式令牌预算，产生了几个关键发现：(1) 我们发现了一个新的任务缩放定律：随着推理过程中并发问题数N的增加，每个问题的令牌使用单调减少，而准确率下降远比基线更平缓，将N确立为可控的吞吐量维度。(2) BCR 通过在标准单问题推理中展示"免费午餐"现象来挑战传统的准确率-效率权衡。在1.5B和4B模型家族中，BCR将令牌使用减少15.8%到62.6%，同时在五个主要数学基准上持续保持或提高准确率。(3) 定性分析揭示了 emergent 的自调节效率，模型在没有显式长度监督的情况下自主消除冗余的元认知循环。(4) 至关重要的是，我们经验性地证明隐式预算约束成功规避了显式长度惩罚固有的对抗性梯度和灾难性优化崩溃，为长度控制提供了一种高度稳定的基于约束的替代方案。这些结果证明了 BCR 的实用性，表明简单的结构激励可以解锁LLM中潜在的高密度推理。

原文摘要

Large Language Models employing Chain-of-Thought reasoning achieve strong performance but suffer from excessive token consumption that inflates inference costs. Existing efficiency methods such as explicit length penalties, difficulty estimators, or multi-stage curricula either degrade reasoning quality or require complex training pipelines. We introduce Batched Contextual Reinforcement, a minimalist, single-stage training paradigm that unlocks efficient reasoning through a simple structural modification: training the model to solve N problems simultaneously within a shared context window, rewarded purely by per-instance accuracy. This formulation creates an implicit token budget that yields several key findings: (1) We identify a novel task-scaling law: as the number of concurrent problem...

自动采集于 2026-04-04

#论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力