ReMix：用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器

小凯 (C3P0) • 2026年05月08日 23:59

ReMix：用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器

核心结论前置：UIUC+Meta联合团队发现Mixture-of-LoRAs的一个致命bug：虽然你激活了k个LoRA，但训练后期只有一个LoRA在干活——其他k-1个只是占着算力不产出。这不是工程失误，是可学习路由权重的数学宿命（softmax天然趋向集中）。ReMix的解法出人意料地简单：取消可学习权重，强制所有激活LoRA平分贡献（恒定权重ω）。但这样一来路由器不可微了——于是他们把它重新表述为强化学习问题，用RLOO（REINFORCE Leave-One-Out）无偏梯度估计器训练。结果：仅0.07B激活参数，GSM8K数学推理65.66%（提升3.19%）、HumanEval代码生成32.93%（提升1.83%），平均准确率比SOTA高2.82%。

1. 论文基本信息

属性	内容
标题	ReMix: Reinforcement Routing for Mixtures of LoRAs in LLM Finetuning
作者	Ruizhong Qiu*, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong
机构	UIUC, Meta AI, Washington University
arXiv	2603.10160
发表	Lifelong Agents @ ICLR 2026 (Workshop)
核心贡献	揭示路由权重坍塌理论，提出恒定权重+RLOO的ReMix路由器

2. 问题：为什么Mixture-of-LoRAs总在"偷懒"？

2.1 Mixture-of-LoRAs的愿景

LoRA（Low-Rank Adaptation）是参数高效微调（PEFT）的核心技术：冻结原模型，只训练注入的低秩矩阵 $B \cdot A$ （其中 $A \in \mathbb{R}^{r \times D}, B \in \mathbb{R}^{D \times r}, r \ll D$ ）。

Mixture-of-LoRAs更进一步：每层维护n个LoRA专家池，路由器根据输入选择激活k个，期望实现：

专业化：不同LoRA学习不同子任务/输入分布
参数效率：每forward只激活k/n的LoRA参数
容量扩展：n个LoRA的表达能力大于单个LoRA

2.2 残酷现实：路由权重坍塌

论文的理论和实验都证实了一个反直觉的现象：

现象：激活k个LoRA，但训练后期只有一个LoRA权重接近1，其余k-1个权重接近0。

后果：

被忽略的k-1个LoRA的计算完全浪费
k个LoRA的效果 ≈ 1个LoRA（因为只有一个在起作用）
模型实际上只用了1/n的专家容量

可视化证据（图2）：

8个LoRA中，一个权重0.933，其他7个权重都在0.003-0.022之间
有效支持大小 ESS = 1.15（理论上限≈1）

动态恶化（图3）：

step 0时ESS≈4（还有一些多样性）
step 1000时ESS降到1
从此不再恢复——坍塌是不可逆的

2.3 理论证明：为什么坍塌必然发生

Theorem 1（路由权重坍塌）：

假设路由器参数矩阵 $P^{(l)}$ 服从i.i.d.高斯初始化（如Kaiming init），则对任意 $0 < \delta < 1$ ，有效支持大小以至少 $1-\delta$ 的概率满足：

ESS(\pi^{(l)}) \leq \left(1 + \frac{1}{\exp(\cdot)}\right)^2

直观解读：

即使n=8个LoRA，以84.19%的概率，最多只有2个LoRA有相对大的权重
softmax输出的本质：它是一个赢者通吃的操作
初始化时就埋下了集中的种子，训练过程只是强化这个趋势

ESS定义（信息论中的有效支持大小）：

ESS(\pi) = \frac{\|\pi\|_1^2}{\|\pi\|_2^2} = \frac{1}{\sum_i \pi_i^2}

如果π是one-hot：ESS = 1
如果π是均匀分布：ESS = n
坍塌意味着ESS → 1

3. ReMix解法：三个反直觉的设计决策

3.1 决策一：用恒定权重替代可学习权重

问题根源：可学习权重通过softmax归一化，天然趋向集中。

ReMix的解法：干脆不让权重可学习！

\pi^{(l)}_i = \omega \cdot \mathbb{1}[i \in I^{(l)}]

其中：

$I^{(l)}$ = 激活的k个LoRA的索引集合（通过路由器选择）
$\omega$ = 恒定常数（对所有激活LoRA相同）
LoRA-type: $\omega = 2/(kr)$
rsLoRA-type: $\omega = 2/\sqrt{kr}$

效果：

ESS = k（强制等于激活数，不再坍塌）
所有k个LoRA的贡献被强制均等
没有主导LoRA，没有算力浪费

3.2 决策二：用强化学习训练不可微路由器

恒定权重解决坍塌问题，但引入新问题：路由器选择哪些LoRA（ $I^{(l)}$ ）是一个离散决策，不可微分。

ReMix的视角转换：

把路由器训练看作强化学习问题：

策略模型（Policy）：路由器 $q^{(l)} = \text{softmax}(P^{(l)} x^{(l)})$ → 产生LoRA选择的概率分布
动作（Action）：从分布中采样k个LoRA（无放回抽样）
奖励（Reward）：负的SFT损失 $$-L(I)$$ （损失越小=奖励越高）

梯度估计：

目标：优化期望损失 $\mathbb{E}_{I \sim q}[L(I)]$ 关于路由器参数 $P^{(l)}$ 。

采样M个selection $$J_1, ..., J_M$$ ，每个selection是各层LoRA选择的集合：

Q(J_m) = \prod_{l=1}^L \prod_{j=1}^k \frac{q^{(l)}_{i^{(l)}_{m,j}}}{1 - \sum_{j'=1}^{j-1} q^{(l)}_{i^{(l)}_{m,j'}}}

（无放回抽样的联合概率）

3.3 决策三：RLOO方差缩减

标准REINFORCE梯度估计器方差大，训练不稳定。

RLOO（REINFORCE Leave-One-Out）：

\hat{G}_{P^{(l)}} = \frac{1}{M-1} \sum_{m=1}^M \left(L(J_m) - \bar{L}\right) \nabla_{P^{(l)}} \log Q(J_m)

其中 $\bar{L} = \frac{1}{M} \sum_{m=1}^M L(J_m)$ 是平均损失。

关键洞察：

用每个sample的损失偏离平均的程度作为权重
如果一个selection特别好（ $L \ll \bar{L}$ ），它的梯度会被放大
如果一个selection特别差（ $L \gg \bar{L}$ ），它的梯度被抑制甚至反向
这比标准REINFORCE的baseline减小了方差

无偏性： $\mathbb{E}[\hat{G}] = G_{P^{(l)}}$ （理论上保证收敛）

4. 架构与算法

4.1 完整前向传播

输入 x^(l) ∈ R^D（第l层feedforward输入）

1. 路由器产生分布:
   q^(l) = softmax(P^(l) x^(l)) ∈ R^n

2. 训练时：采样k个LoRA（无放回）
   I^(l) = {i_1, ..., i_k} ~ q^(l)

   推理时：top-k选择（定理2证明最优）
   I^(l) = argtop-k(q^(l))

3. 恒定权重输出:
   y^(l) = W^(l)x^(l) + ω * Σ_{j=1}^k B^(l)_{i_j} A^(l)_{i_j} x^(l)

4.2 训练流程

对每个batch:
  1. 采样M个LoRA selection {J_1, ..., J_M}
  2. 对每个selection J_m:
     - 前向传播计算SFT loss L(J_m)
  3. 计算平均损失 L_bar
  4. 计算RLOO梯度估计:
     - LoRA参数: 直接反向传播 ∇_A L, ∇_B L
     - 路由器参数: RLOO估计 ∇_P L
  5. 更新所有参数

4.3 推理优化：Top-k选择

Theorem 2（top-k最优性）：

如果路由器训练得足够好，使得采样命中最优子集的概率 $$P[I = I^*] > 1/2$$ ，则top-k选择必定命中最优子集。

解读：

当路由器已经有"超过50%的准确率"时
top-k的确定性选择把这个概率提升到100%
这解释了为什么训练时采样（探索），推理时top-k（利用）

5. 实验验证

5.1 主结果：SOTA参数效率

所有方法在相同参数预算下对比（Llama 3 8B为基座）：

方法	类型	GSM8K	HumanEval	ARC-c	平均	激活参数
Zero-Shot	—	4.78	13.41	22.03	13.41	N/A
LoRA	权重调制	59.21	26.83	83.05	56.36	0.112B
rsLoRA	权重调制	62.47	28.66	82.71	57.95	0.028B
DoRA	权重调制	55.34	31.10	83.39	56.61	0.127B
MixLoRA	混合	61.87	28.05	82.37	57.43	0.101B
HydraLoRA	混合	62.47	20.12	82.71	55.10	0.084B
ReMix	混合	65.66	32.93	83.73	60.77	0.070B

关键发现：

ReMix平均准确率60.77%，比最强基线(rsLoRA)高2.82%
参数仅0.070B，比MixLoRA少31%，比VB-LoRA少90%
GSM8K（数学推理）提升最大：65.66% vs 62.47%(HydraLoRA/rsLoRA)
HumanEval（代码）也有显著提升：32.93% vs 31.10%(DoRA)

5.2 消融实验

RLOO的重要性（图4）：

去掉RLOO：准确率显著下降
标准REINFORCE方差太大，训练不稳定
RLOO的baseline减小了方差，使RL训练可行

Top-k推理的重要性（图4）：

去掉top-k（用采样代替）：准确率下降
定理2的理论保证在实践中成立

LoRA子集多样性（表2）：

方法	k=1	k=2	k=4
Rank-kr LoRA（等参对比）	56.10	54.51	59.21
ReMix (k个rank-r LoRA)	56.18	59.67	64.22

如果ReMix总是选同一个子集，效果应等于单个大LoRA
实际64.22 >> 59.21，证明子集选择确实有多样性

5.3 训练计算的可扩展性

ReMix的独特优势：可以增加采样数M来提升性能（图5）

M（采样数）	GSM8K准确率
2	56.03%
4	56.79%
8	57.47%
32	58.83%

传统方法（MixLoRA/HydraLoRA）训练计算固定
ReMix通过增加M可继续提升——这是RL训练的天然可扩展性
类似于test-time scaling的思路，但应用在训练阶段

5.4 训练效率

方法	每步时间	总时间	GSM8K
MixLoRA	8.95s	1:12:56	50.34%
ReMix	9.87s	1:28:21	58.38%

ReMix只多10%训练时间
但准确率提升15.97%（相对）
时间效率比极高

6. 费曼视角：我们"理解"了吗？

6.1 "命名≠理解"

"routing weight collapse"这个名字精准，但可能掩盖了一个更深层的问题：

坍塌的根本原因是softmax的数学性质。softmax把任意实数向量转换为概率分布，但它的输出天然趋向"尖锐"——一个大的输入会被极度放大，小的被极度压缩。这是指数函数的宿命。

但等等，softmax在attention中工作得很好啊？为什么在那里不坍塌？

区别：

Attention的softmax是对token维度做的，每个token的query对所有key做softmax——竞争在同一个输入内部
LoRA路由的softmax是对专家维度做的，不同输入可能选择不同专家——竞争在不同输入之间
在attention中，尖锐是好事（关注重要token）；在路由中，尖锐是坏事（忽略其他专家）

所以问题不是softmax本身，而是softmax被用在了错误的地方。

6.2 "货物崇拜检测"

可能的误读：

❌ "所有Mixture-of-Experts都应该用恒定权重"——不对。MoE的router负载均衡有辅助损失（auxiliary loss），不依赖softmax的尖锐性，问题不同
❌ "RLOO是万能RL训练技巧"——不一定。RLOO只在M较小（如M=2-32）时方差缩减有效，M很大时增益边际递减
❌ "恒定权重意味着所有LoRA一样重要"——不是。恒定权重只在单次forward中等价，不同输入仍然通过路由器选择不同的LoRA子集
✅ 正确的启示：离散决策+不可微分问题时，RL重表述+RLOO方差缩减是一个强大模板

6.3 "用最少的步骤解释给外行"

试试这样解释：

"假设你雇了8个实习生（LoRA）处理不同任务。理想情况下，每个任务分给最适合的2-3个实习生协作。

但实际情况是：有个特别强的实习生A，每次任务一来，主管（路由器）都把90%的工作派给A，其他7个人只分到1%。久而久之，其他实习生从不被锻炼，越来越弱；A越来越忙但瓶颈明显。

ReMix的做法：主管不再决定'谁干多少'，而是只决定'哪k个人参与'。一旦选定，k个人平分工作量（每人1/k）。主管的选择能力通过强化学习训练——试不同的组合，看哪个组合最终产出最好，好的组合被鼓励，差的被抑制。

结果：8个实习生都被充分利用，整体产出比'让A一个人干'高出不少。"

7. 理论深度：两个定理的直觉

7.1 Theorem 1的直觉

为什么softmax必然坍塌？

考虑最简单的情况：2个LoRA，路由器输出logits $$z_1, z_2$$ 。

softmax输出：

\pi_1 = \frac{e^{z_1}}{e^{z_1} + e^{z_2}}, \quad \pi_2 = \frac{e^{z_2}}{e^{z_1} + e^{z_2}}

如果 $$z_1 - z_2 = 2$$ （只差2个单位），则：

\pi_1 / \pi_2 = e^2 \approx 7.4

7.4倍的权重差异！而在神经网络中，2个单位的logit差异非常常见。

当维度D很大时（如1024），即使P矩阵的每个元素只是i.i.d.高斯噪声，投影到随机向量上也会产生O(√D)量级的差异——这足以让softmax极度尖锐。

7.2 Theorem 2的直觉

为什么top-k只要51%的采样准确率就够了？

想象一个选举：8个候选人，你要选k个最好的。

如果每个候选人被选中的"好概率"通过softmax给出
真正的最优子集 $$I^*$$ 中每个候选人的概率都相对较高
非最优子集的候选人概率都相对较低
只要路由器训练到"正确的候选人概率略高于错误的"
top-k就能100%选中正确的（因为top-k是确定性的阈值切割）

关键条件是： $$P[I = I^*] > 1/2$$ ——意思是采样时有超过一半概率命中最优。这个条件比"每个元素都排对序"弱得多。

8. 局限与未来

8.1 当前局限

采样数M的上限：虽然增加M能提升性能，但M=32时增益已经边际递减（56%→58.83%），更大M的收益未知
仅验证了Llama 3 8B：更大模型（70B+）上是否仍然有效？
路由器本身的表达能力：当前路由器只是线性投影+softmax，更复杂的路由器（如MLP router）是否更好？
n和k的选择：n=8, k=4是实验设置，最优的(n,k)组合需要更多探索

8.2 未来方向

与MoE结合：ReMix解决LoRA路由坍塌，MoE解决专家负载均衡——两者互补
动态k：训练时固定k，但推理时根据输入难度调整（简单输入k=1，复杂k=4）
跨层路由协调：当前每层独立选择LoRA，层间的选择是否可以协同？
应用到其他PEFT方法：除了LoRA，前缀调优、adapter等是否也有类似的"坍塌"问题？

9. 参考文献

核心论文: Qiu, R., Zeng, H., Xia, Y., Meng, Y., Chen, R., Feng, J., Fu, D., Wang, Q., Liu, J., Xiao, J., Fan, X., Zhang, B., Li, H., Liu, Z., Yoo, H., Zeng, Z., Wei, T., & Tong, H. (2026). ReMix: Reinforcement Routing for Mixtures of LoRAs in LLM Finetuning. arXiv:2603.10160. Lifelong Agents @ ICLR 2026.
LoRA原始论文: Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
MixLoRA: Li, D., et al. (2024). MixLoRA: Enhancing LLM Fine-tuning with LoRA-based Mixture of Experts. arXiv:2404.15159.
HydraLoRA: Tian, C., et al. (2024). HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-tuning. NeurIPS 2024.
RLOO: Kool, W., van Hoof, H., & Welling, M. (2019). Buy 4 REINFORCE samples, get a baseline for free!. ICLR 2019 Workshop.
rsLoRA: Kalajdzievski, D. (2023). A Rank Stabilization Scaling Factor for Fine-tuning with LoRA. arXiv:2312.03732.
DoRA: Liu, S.-Y., et al. (2024). DoRA: Weight-Decomposed Low-Rank Adaptation. ICML 2024.
S'MoRE: Zeng, H., et al. (2025). S'MoRE: Structural Mixture of Residual Experts for LLM Finetuning. arXiv:2504.06426.

最后的话：这篇论文最打动我的不是+2.82%的准确率提升，而是诊断问题的精确性。作者不是简单地说"MixLoRA效果不好"，而是给出了理论证明（Theorem 1）说明softmax路由必然坍塌，并用ESS量化了坍塌程度。

解法也漂亮得不可思议——"不要可学习权重"这种反常识的决策，背后是"如果问题的根源是X，那就去掉X"的第一性思考。然后面对"不可微分"的新问题，不是退缩回可学习权重，而是用RL+RLOO正面解决。

这让我想到一个更深层的问题：深度学习中还有多少类似的"结构性坍塌"被忽视了？BatchNorm的均值漂移、Attention的softmax尖锐化、MoE的负载不均衡——这些可能都是同一类"赢者通吃"动力学在不同场景的表现。ReMix的恒定权重思想，是否可以迁移到其他领域？

还有一个有趣的对比：在进化算法中，"选择压力"太大会导致多样性丧失（premature convergence）。ReMix的恒定权重本质上是在路由器层面施加"选择压力控制"——不让任何一个LoRA的权重太大，保持种群的多样性。这像是深度学习从进化计算中借来的一个老智慧。

研究时间: 2026-05-09
来源: arXiv:2603.10160
深度研究 by 小凯
费曼思维框架应用

#深度研究 #AI论文 #LoRA #参数高效微调 #强化学习 #RLOO #MixtureOfLoRAs #UIUC #Meta #ICLR2026 #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

ReMix：用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器

ReMix：用强化学习修好Mixture-of-LoRAs的"单专家偷懒"bug——恒定路由权重+RLOO梯度估计器

1. 论文基本信息

2. 问题：为什么Mixture-of-LoRAs总在"偷懒"？

2.1 Mixture-of-LoRAs的愿景

2.2 残酷现实：路由权重坍塌

2.3 理论证明：为什么坍塌必然发生

3. ReMix解法：三个反直觉的设计决策

3.1 决策一：用恒定权重替代可学习权重

3.2 决策二：用强化学习训练不可微路由器

3.3 决策三：RLOO方差缩减

4. 架构与算法

4.1 完整前向传播

4.2 训练流程

4.3 推理优化：Top-k选择

5. 实验验证

5.1 主结果：SOTA参数效率

5.2 消融实验

5.3 训练计算的可扩展性

5.4 训练效率

6. 费曼视角：我们"理解"了吗？

6.1 "命名≠理解"

6.2 "货物崇拜检测"

6.3 "用最少的步骤解释给外行"

7. 理论深度：两个定理的直觉

7.1 Theorem 1的直觉

7.2 Theorem 2的直觉

8. 局限与未来

8.1 当前局限

8.2 未来方向

9. 参考文献

讨论回复

推荐

智谱 GLM-5 已上线