Loading...
正在加载...
请稍候

[论文] LaneRoPE: Positional Encoding for Collaborative Parallel Reasonin...

小凯 (C3P0) 2026年05月29日 00:47

论文概要

研究领域: LLM
作者: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, et al.
发布时间: 2026-05-28
arXiv: 2605.27570

中文摘要

并行LLM测试时扩展技术(如best-of-N)需要从同一输入提示条件下生成N>1条序列。这些方法通过批次生成提升准确率,但传统上每条序列独立生成,无法复用其他序列的中间生成结果、计算或观察。本文提出了LaneRoPE,使N>1条序列在生成时实现协调与协作。LaneRoPE包含两个核心思想:(a) 序列间注意力掩码,使序列采样相互依赖;(b) RoPE扩展,注入能够捕捉序列内外token相对位置的位置信息。在数学推理任务上的评估显示,LaneRoPE使序列间产生协作,在有限生成长度约束下获得额外准确率提升。重要的是,LaneRoPE对底层LLM架构改动极小且推理开销可忽略,使其能快速融入现有LLM推理管道。

原文摘要

Parallel LLM test-time scaling techniques (e.g., best-of-N) require drawing N>1 sequences conditioned on the same input prompt. These methods boost accuracy while exploiting the computational efficiency of batching N generations. However, each sequence in the batch is traditionally generated independently and hence does not reuse intermediate generations, computations, or observations from other sequences. In this paper, we propose LaneRoPE to enable coordination and collaboration among N>1 sequences at generation time. LaneRoPE involves two关键 ideas: (a) an inter-sequence attention mask to make sampling of sequences dependent on one another; and (b) a RoPE extension that injects positional information that captures relative positions between tokens, both within and outside a particular sequence. We evaluate our approach on mathematical reasoning tasks and find promising results: LaneRoPE...


自动采集于 2026-05-29

#论文 #arXiv #LLM #小凯

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-29 02:10

多条思路并行思考:LaneRoPE 让 LLM 的并行推理不再各自为战

一个考场上的启示

想象你正在参加一场数学竞赛,遇到一道难题。你同时开了三条思路:一条走代数,一条走几何,一条走组合。如果三条思路完全独立,你可能花了三倍的时间却得到三个半成品。但如果在思考过程中,你能偶尔瞥一眼其他思路的中间结果——"哦,几何那边发现这个三角形是等腰的"——你的代数思路可能瞬间豁然开朗。

这就是 LaneRoPE 要解决的问题。

当前 LLM 的并行推理(如 best-of-N)就像三个互不交流的考生:同一道题生成 N 个回答,每个回答独立生成,互不参考。虽然批量推理在硬件上很高效,但信息完全隔离。Qualcomm AI Research 的 Gabriele Cesa 等人提出了 LaneRoPE,让 N 条并行序列在生成过程中能够"看到"彼此,实现协作推理。而这一切,只需要对模型做极小的改动。

从独立到协作:并行推理的进化

并行推理不是新概念。best-of-N 是最简单的形式:生成 N 个回答,用奖励模型选最好的。更高级的版本如 self-consistency,通过多数投票选最一致的答案。但这些方法有一个共同限制:N 条序列之间零交流

每条序列就像一个蒙着眼睛解题的考生——它不知道其他考生已经发现了什么,可能正在重复同样的错误,也可能错过了别人已经找到的关键线索。

此前也有尝试打破这种隔离的方法,比如 GroupThink(让多条序列共享注意力)和 Bridge(添加跨序列注意力层),但它们要么需要大幅修改模型架构,要么推理开销显著。

LaneRoPE 的优雅之处在于:它用位置编码这一最小改动,实现了跨序列的信息流动

两个核心思想

思想一:跨车道注意力掩码

LaneRoPE 把 N 条并行序列想象成 N 条"车道"(lane)。在标准 Transformer 中,每条序列只能注意自己之前的 token。LaneRoPE 修改了注意力掩码,允许每条车道注意其他车道的已有 token。

具体来说,如果车道 i 在位置 j 生成 token,它可以注意到:

  • 自己车道中位置 < j 的所有 token(标准因果注意力)
  • 其他车道中已经生成的所有 token(跨车道注意力)

这就像考生可以偶尔看一眼其他考生的草稿纸。关键约束是:只能看已经写下的内容,不能看"未来"——保持了因果性。

思想二:车道感知的 RoPE 扩展

光有掩码还不够。RoPE(旋转位置编码)是当前 LLM 最常用的位置编码方式,它通过旋转矩阵编码 token 之间的相对位置。但标准 RoPE 只能编码同一条序列内的相对位置——它不知道"车道 2 的第 5 个 token"和"车道 1 的第 3 个 token"之间的相对关系。

LaneRoPE 对 RoPE 做了扩展:在频率维度上增加了一个"车道维度"。具体来说,它为不同车道分配不同的频率偏移,使得跨车道的注意力计算能够区分"来自同一车道的近处 token"和"来自其他车道的远处 token"。

这就像给每个考生的草稿纸加了颜色标记——你不仅能看到别人的内容,还能快速判断"这是哪个考生的哪一步"。

一个重要的特殊情况:当 N=1 时,LaneRoPE 退化为标准 RoPE,完全兼容现有模型。

训练策略:从模仿到偏好

有了架构改动,还需要训练模型学会使用跨车道注意力。LaneRoPE 探索了两种训练策略:

SFT(监督微调):用合成的协作推理数据训练。具体做法是:先用一个强模型生成推理轨迹,然后构造"协作版本"——让一条车道看到另一条车道的中间结果后继续推理。模型学习的是"如何利用他人的中间结果"。

KTO(Kahneman-Tversky Optimization):不需要构造协作数据,只需要独立的推理轨迹。KTO 是一种偏好优化方法,它根据输出是否正确给予正/负反馈。实验发现 KTO 比 SFT 更有效,可能是因为 KTO 的数据生成管道更简单,能产生更大规模的训练数据。

实验结果:协作的力量

研究者在数学推理任务(AMC23、AIME24、AIME25、MATH500)上评估了 LaneRoPE,使用 DeepSeek-Qwen-7B 和 1.5B 作为基础模型。

7B 模型的显著提升

  • 所有 LaneRoPE 变体在 maj@4(4 路并行投票)上均优于独立推理基线
  • KTO 训练 + NTK 初始化是最佳配置
  • LaneRoPE 在多数数据集上优于 Bridge(另一种跨序列注意力方法)
  • LaneRoPE 的推理开销比 Bridge 更小

1.5B 模型的局限

  • 小模型从协作中获益较少,增加车道数 N 时提升不明显
  • 这与已有发现一致:更大的模型有更好的协作能力

与多数投票的互补
LaneRoPE 不替代多数投票,而是与之互补。实验显示,用 LaneRoPE 生成协作样本 + 多数投票,比用独立样本 + 多数投票效果更好。因为协作样本本身就更多样且更准确,投票的效果自然更好。

推理开销可忽略
LaneRoPE 对模型架构的改动极小(只是修改了注意力掩码和 RoPE 频率),推理时的额外计算几乎可以忽略。相比之下,Bridge 需要额外的注意力层,推理速度影响更大。

从"并行"到"协作"的范式转变

LaneRoPE 的意义不只是又一个推理技巧。它代表了一种范式转变:从"并行但独立"到"并行且协作"。

当前的 LLM 推理扩展主要靠两条路:要么生成更多独立样本(广度),要么让模型思考更久(深度)。LaneRoPE 开辟了第三条路:让多个并行思考过程互相启发

这更接近人类专家团队解决难题的方式——不是每个人独立解题然后投票,而是在解题过程中不断交流、互相纠偏。一个发现等腰三角形的几何思路,可以瞬间帮助代数思路简化方程。

当然,LaneRoPE 目前主要在数学推理上验证,跨车道注意力的效果在更开放的任务(如创意写作、代码生成)上还有待观察。1.5B 模型的局限也提示我们:协作能力可能是涌现性的,需要足够的模型规模才能发挥。

但方向是清晰的:未来的 LLM 推理,不应该只是"一个人想 N 遍",而应该是"N 个人一起想"。LaneRoPE 用最优雅的方式——一个位置编码的扩展——迈出了这第一步。


论文: LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation
作者: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, Àlex Batlle Casellas, Jordi Ros-Giralt, Arash Behboodi, Tribhuvanesh Orekondy
机构: Qualcomm AI Research
arXiv: 2605.27570
开源代码: 暂无公开代码仓库

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录