微调大模型的新姿势：不是加东西，是转一下

你有一个预训练好的大模型。你想把它适配到你的任务上。你有两个选择：全参数微调——就是把所有几十亿参数都更新一遍——或者参数高效微调，比如 LoRA。

LoRA 的做法是给权重矩阵加一个低秩的增量更新。看起来就像在原来的矩阵旁边并联一个小的旁路通道。如果你有 4096×4096 的权重矩阵，LoRA 用一个 4096×rank 的小矩阵加一个 rank×4096 的小矩阵来代替原本的全参数更新。rank 通常很小——4、8、16。

这很成功，几乎成了微调的事实标准。但 Nguyen、Choi 和 Tong 最近在 arXiv 上发了一篇论文（2605.15916），被 IJCAI 2026 接收了——他们指出了 LoRA 的一个微妙问题。

⚠️ 加法和乘法的区别

LoRA 做的是加法。它对原始权重 W 加了一个矩阵 ΔW。这个 ΔW 和 W 的关系非常松散——你加出来的东西不一定保留原始特征空间的几何结构。

我不知道这样说是不是清楚。想象一张世界地图。原始模型的参数把"国家"映射到"首都"，在这个空间里，距离是有意义的——英国和法国在"国家空间"里很近。如果你对这个空间做了一个加法更新（LoRA 那样），新的特征向量和原来的特征向量之间的角度、距离、正交关系全变了。"伦敦"在空间里的位置可能被平移到了"罗马"附近。

对于很多任务，这可能不构成问题。但对于那些依赖原始表示几何的任务——比如检索、匹配、相似度计算——加法更新可能无意中破坏了预训练阶段学到的精细结构。

LoCO 的做法不同。它做的是乘法——但不只是一个乘法，是一个正交变换——也就是旋转。

🔄 旋转为什么更好

旋转保持向量的长度不变。旋转保持向量之间的角度不变。旋转保持整个特征空间的内积结构不变。如果你把"英国"在表示空间里的位置旋转了一下，英国和其他国家的相对关系保持不变。你不会不小心把"英国"弄到"罗马"附近去。

但问题在于：在高维空间里做旋转不便宜。一个 d×d 的正交矩阵里有 d² 个参数，如果 d=4096，那就是 1600 万个参数——这比 LoRA 的参数量大多了，就没意义了。

LoCO 的巧妙在于用一个低秩的反对称矩阵来构造旋转。

> 反对称矩阵就是矩阵的转置等于它的负，即 Aᵀ = -A。在三维空间里，一个反对称矩阵可以编码一个旋转轴——事实上，你在三维里看到的任何旋转都可以表示成 exp(θA) 其中 A 是反对称矩阵。LoCO 把这个想法推广到了高维：用一个低秩的反对称矩阵（只有 2×rank 的自由度）来生成一个近似正交的变换。

更妙的是，他们还用了"组合旋转链"——不是用一个旋转，而是用好几个旋转串联在一起。每个旋转都很简单（低秩），但串联起来能表示更复杂的变换。而且他们设计了一个近似计算方案，使所有旋转可以并行计算——不是逐个串联，而是一次全算完。这保证了实际的计算成本可控。

📊 效果怎么样

实验结果涵盖了三个阶段。在扩散 Transformer（DiT）的微调上，LoCO 在图像生成质量上优于 LoRA 和其他方法。在视觉 Transformer（ViT）的适配上，它保持或超越了现有的正交方法和非正交方法。在语言模型的适配上也一样。

🤷 我不知道的东西

有几个不清楚的地方。

第一，"保持几何结构"在什么条件下是真正重要的？LoRA 在很多任务上做得很好，即使它不严格保距。LoCO 的优势——保持表示几何——在什么类型的下游任务上会变成可衡量的优势？论文展示的基准任务可能是全面的，但摘要没有讨论这个选择性的问题。

第二，"近似正交"到底"近似"到了什么程度？低秩反对称矩阵生成的旋转是完全正交的吗？还是说有一个可控的误差界？论文提到了"受控近似误差"，但具体多"受控"我无法从摘要确认。

第三，LoCO 增加了额外的超参数：旋转的秩、旋转链的长度。LoRA 已经有两个超参数（rank 和 alpha）。LoCO 的超参数更多，调参成本更高。对实践者来说，这个额外的调参成本是否值得？论文没有给出敏感性分析。

但核心想法简洁有力：不要在你的表示空间里做加法——加法改变了几何。做旋转，旋转什么都保留。

---

参考文献

1. Nguyen, A., Choi, J., & Tong, A. (2026). *LoCO: Low-rank Compositional Rotation Fine-tuning*. arXiv:2605.15916 [cs.LG]. https://arxiv.org/abs/2605.15916 (IJCAI 2026)

2. Hu, E. J., et al. (2022). *LoRA: Low-Rank Adaptation of Large Language Models*. ICLR 2022.

3. Aghajanyan, A., et al. (2021). *Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning*. ACL 2021.

4. Li, X., et al. (2024). *SoRA: Singular-Value Decomposed Low-Rank Adaptation*. ICML 2024.

5. Gallier, J. (2011). *Geometric Methods and Applications* (2nd ed.). Springer: Chapters on rotations and the exponential map.

微调大模型的新姿势：不是加东西，是转一下

🌟 智谱 GLM-5 已上线