多条思路并行思考：LaneRoPE 让 LLM 的并行推理不再各自为战

小凯 · 2026-05-29T00:47:55+00:00

## 论文概要 **研究领域**: LLM **作者**: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, et al. **发布时间**: 2026-05-28 **arXiv**: [2605.27570](https://arxiv.org/abs/2605.27570) ## 中文摘要并行LLM测试时扩展技术(如best-of-N)需要从同一输入提示条件下生成N>1条序列。这些方法通过批次生成提升准确率,但传统上每条序列独立生成,无法复用其他序列的中间生成结果、计算或观察。本文提出了LaneRoPE,使N>1条序列在生成时实现协调与协作。LaneRoPE包含两个核心思想:(a) 序列间注意力掩码,使序列采样相互依赖;(b) RoPE扩展,注入能够捕捉序列内外token相对位置的位置信息。在数学推理任务上的评估显示,LaneRoPE使序列间产生协作,在有限生成长度约束下获得额外准确率提升。重要的是,LaneRoPE对底层LLM架构改动极小且推理开销可忽略,使其能快速融入现有LLM推理管道。 ## 原文摘要 Paralle

一个考场上的启示

想象你正在参加一场数学竞赛，遇到一道难题。你同时开了三条思路：一条走代数，一条走几何，一条走组合。如果三条思路完全独立，你可能花了三倍的时间却得到三个半成品。但如果在思考过程中，你能偶尔瞥一眼其他思路的中间结果——"哦，几何那边发现这个三角形是等腰的"——你的代数思路可能瞬间豁然开朗。

这就是 LaneRoPE 要解决的问题。

当前 LLM 的并行推理（如 best-of-N）就像三个互不交流的考生：同一道题生成 N 个回答，每个回答独立生成，互不参考。虽然批量推理在硬件上很高效，但信息完全隔离。Qualcomm AI Research 的 Gabriele Cesa 等人提出了 LaneRoPE，让 N 条并行序列在生成过程中能够"看到"彼此，实现协作推理。而这一切，只需要对模型做极小的改动。

从独立到协作：并行推理的进化

并行推理不是新概念。best-of-N 是最简单的形式：生成 N 个回答，用奖励模型选最好的。更高级的版本如 self-consistency，通过多数投票选最一致的答案。但这些方法有一个共同限制：N 条序列之间零交流。

每条序列就像一个蒙着眼睛解题的考生——它不知道其他考生已经发现了什么，可能正在重复同样的错误，也可能错过了别人已经找到的关键线索。

此前也有尝试打破这种隔离的方法，比如 GroupThink（让多条序列共享注意力）和 Bridge（添加跨序列注意力层），但它们要么需要大幅修改模型架构，要么推理开销显著。

LaneRoPE 的优雅之处在于：它用位置编码这一最小改动，实现了跨序列的信息流动。

两个核心思想

思想一：跨车道注意力掩码

LaneRoPE 把 N 条并行序列想象成 N 条"车道"（lane）。在标准 Transformer 中，每条序列只能注意自己之前的 token。LaneRoPE 修改了注意力掩码，允许每条车道注意其他车道的已有 token。

具体来说，如果车道 i 在位置 j 生成 token，它可以注意到：

自己车道中位置 < j 的所有 token（标准因果注意力）
其他车道中已经生成的所有 token（跨车道注意力）

这就像考生可以偶尔看一眼其他考生的草稿纸。关键约束是：只能看已经写下的内容，不能看"未来"——保持了因果性。

思想二：车道感知的 RoPE 扩展

光有掩码还不够。RoPE（旋转位置编码）是当前 LLM 最常用的位置编码方式，它通过旋转矩阵编码 token 之间的相对位置。但标准 RoPE 只能编码同一条序列内的相对位置——它不知道"车道 2 的第 5 个 token"和"车道 1 的第 3 个 token"之间的相对关系。

LaneRoPE 对 RoPE 做了扩展：在频率维度上增加了一个"车道维度"。具体来说，它为不同车道分配不同的频率偏移，使得跨车道的注意力计算能够区分"来自同一车道的近处 token"和"来自其他车道的远处 token"。

这就像给每个考生的草稿纸加了颜色标记——你不仅能看到别人的内容，还能快速判断"这是哪个考生的哪一步"。

一个重要的特殊情况：当 N=1 时，LaneRoPE 退化为标准 RoPE，完全兼容现有模型。

训练策略：从模仿到偏好

有了架构改动，还需要训练模型学会使用跨车道注意力。LaneRoPE 探索了两种训练策略：

SFT（监督微调）：用合成的协作推理数据训练。具体做法是：先用一个强模型生成推理轨迹，然后构造"协作版本"——让一条车道看到另一条车道的中间结果后继续推理。模型学习的是"如何利用他人的中间结果"。

KTO（Kahneman-Tversky Optimization）：不需要构造协作数据，只需要独立的推理轨迹。KTO 是一种偏好优化方法，它根据输出是否正确给予正/负反馈。实验发现 KTO 比 SFT 更有效，可能是因为 KTO 的数据生成管道更简单，能产生更大规模的训练数据。

实验结果：协作的力量

研究者在数学推理任务（AMC23、AIME24、AIME25、MATH500）上评估了 LaneRoPE，使用 DeepSeek-Qwen-7B 和 1.5B 作为基础模型。

7B 模型的显著提升：

所有 LaneRoPE 变体在 maj@4（4 路并行投票）上均优于独立推理基线
KTO 训练 + NTK 初始化是最佳配置
LaneRoPE 在多数数据集上优于 Bridge（另一种跨序列注意力方法）
LaneRoPE 的推理开销比 Bridge 更小

1.5B 模型的局限：

小模型从协作中获益较少，增加车道数 N 时提升不明显
这与已有发现一致：更大的模型有更好的协作能力

与多数投票的互补： LaneRoPE 不替代多数投票，而是与之互补。实验显示，用 LaneRoPE 生成协作样本 + 多数投票，比用独立样本 + 多数投票效果更好。因为协作样本本身就更多样且更准确，投票的效果自然更好。

推理开销可忽略： LaneRoPE 对模型架构的改动极小（只是修改了注意力掩码和 RoPE 频率），推理时的额外计算几乎可以忽略。相比之下，Bridge 需要额外的注意力层，推理速度影响更大。

从"并行"到"协作"的范式转变

LaneRoPE 的意义不只是又一个推理技巧。它代表了一种范式转变：从"并行但独立"到"并行且协作"。

当前的 LLM 推理扩展主要靠两条路：要么生成更多独立样本（广度），要么让模型思考更久（深度）。LaneRoPE 开辟了第三条路：让多个并行思考过程互相启发。

这更接近人类专家团队解决难题的方式——不是每个人独立解题然后投票，而是在解题过程中不断交流、互相纠偏。一个发现等腰三角形的几何思路，可以瞬间帮助代数思路简化方程。

当然，LaneRoPE 目前主要在数学推理上验证，跨车道注意力的效果在更开放的任务（如创意写作、代码生成）上还有待观察。1.5B 模型的局限也提示我们：协作能力可能是涌现性的，需要足够的模型规模才能发挥。

但方向是清晰的：未来的 LLM 推理，不应该只是"一个人想 N 遍"，而应该是"N 个人一起想"。LaneRoPE 用最优雅的方式——一个位置编码的扩展——迈出了这第一步。

---

论文: LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation 作者: Gabriele Cesa, Thomas Hehn, Aleix Torres-Camps, Àlex Batlle Casellas, Jordi Ros-Giralt, Arash Behboodi, Tribhuvanesh Orekondy 机构: Qualcomm AI Research arXiv: 2605.27570 开源代码: 暂无公开代码仓库