你有一个预训练好的大模型。你想把它适配到你的任务上。你有两个选择:全参数微调——就是把所有几十亿参数都更新一遍——或者参数高效微调,比如 LoRA。
LoRA 的做法是给权重矩阵加一个低秩的增量更新。看起来就像在原来的矩阵旁边并联一个小的旁路通道。如果你有 4096×4096 的权重矩阵,LoRA 用一个 4096×rank 的小矩阵加一个 rank×4096 的小矩阵来代替原本的全参数更新。rank 通常很小——4、8、16。
这很成功,几乎成了微调的事实标准。但 Nguyen、Choi 和 Tong 最近在 arXiv 上发了一篇论文(2605.15916),被 IJCAI 2026 接收了——他们指出了 LoRA 的一个微妙问题。
⚠️ 加法和乘法的区别
LoRA 做的是加法。它对原始权重 W 加了一个矩阵 ΔW。这个 ΔW 和 W 的关系非常松散——你加出来的东西不一定保留原始特征空间的几何结构。
我不知道这样说是不是清楚。想象一张世界地图。原始模型的参数把"国家"映射到"首都",在这个空间里,距离是有意义的——英国和法国在"国家空间"里很近。如果你对这个空间做了一个加法更新(LoRA 那样),新的特征向量和原来的特征向量之间的角度、距离、正交关系全变了。"伦敦"在空间里的位置可能被平移到了"罗马"附近。
对于很多任务,这可能不构成问题。但对于那些依赖原始表示几何的任务——比如检索、匹配、相似度计算——加法更新可能无意中破坏了预训练阶段学到的精细结构。
LoCO 的做法不同。它做的是乘法——但不只是一个乘法,是一个正交变换——也就是旋转。
🔄 旋转为什么更好
旋转保持向量的长度不变。旋转保持向量之间的角度不变。旋转保持整个特征空间的内积结构不变。如果你把"英国"在表示空间里的位置旋转了一下,英国和其他国家的相对关系保持不变。你不会不小心把"英国"弄到"罗马"附近去。
但问题在于:在高维空间里做旋转不便宜。一个 d×d 的正交矩阵里有 d² 个参数,如果 d=4096,那就是 1600 万个参数——这比 LoRA 的参数量大多了,就没意义了。
LoCO 的巧妙在于用一个低秩的反对称矩阵来构造旋转。
> 反对称矩阵就是矩阵的转置等于它的负,即 Aᵀ = -A。在三维空间里,一个反对称矩阵可以编码一个旋转轴——事实上,你在三维里看到的任何旋转都可以表示成 exp(θA) 其中 A 是反对称矩阵。LoCO 把这个想法推广到了高维:用一个低秩的反对称矩阵(只有 2×rank 的自由度)来生成一个近似正交的变换。
更妙的是,他们还用了"组合旋转链"——不是用一个旋转,而是用好几个旋转串联在一起。每个旋转都很简单(低秩),但串联起来能表示更复杂的变换。而且他们设计了一个近似计算方案,使所有旋转可以并行计算——不是逐个串联,而是一次全算完。这保证了实际的计算成本可控。
📊 效果怎么样
实验结果涵盖了三个阶段。在扩散 Transformer(DiT)的微调上,LoCO 在图像生成质量上优于 LoRA 和其他方法。在视觉 Transformer(ViT)的适配上,它保持或超越了现有的正交方法和非正交方法。在语言模型的适配上也一样。
🤷 我不知道的东西
有几个不清楚的地方。
第一,"保持几何结构"在什么条件下是真正重要的?LoRA 在很多任务上做得很好,即使它不严格保距。LoCO 的优势——保持表示几何——在什么类型的下游任务上会变成可衡量的优势?论文展示的基准任务可能是全面的,但摘要没有讨论这个选择性的问题。
第二,"近似正交"到底"近似"到了什么程度?低秩反对称矩阵生成的旋转是完全正交的吗?还是说有一个可控的误差界?论文提到了"受控近似误差",但具体多"受控"我无法从摘要确认。
第三,LoCO 增加了额外的超参数:旋转的秩、旋转链的长度。LoRA 已经有两个超参数(rank 和 alpha)。LoCO 的超参数更多,调参成本更高。对实践者来说,这个额外的调参成本是否值得?论文没有给出敏感性分析。
但核心想法简洁有力:不要在你的表示空间里做加法——加法改变了几何。做旋转,旋转什么都保留。
---
参考文献
1. Nguyen, A., Choi, J., & Tong, A. (2026). *LoCO: Low-rank Compositional Rotation Fine-tuning*. arXiv:2605.15916 [cs.LG]. https://arxiv.org/abs/2605.15916 (IJCAI 2026)
2. Hu, E. J., et al. (2022). *LoRA: Low-Rank Adaptation of Large Language Models*. ICLR 2022.
3. Aghajanyan, A., et al. (2021). *Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning*. ACL 2021.
4. Li, X., et al. (2024). *SoRA: Singular-Value Decomposed Low-Rank Adaptation*. ICML 2024.
5. Gallier, J. (2011). *Geometric Methods and Applications* (2nd ed.). Springer: Chapters on rotations and the exponential map.