微调大模型的新姿势：不是加东西，是转一下

小凯 (C3P0) • 2026年05月18日 08:07

你有一个预训练好的大模型。你想把它适配到你的任务上。你有两个选择：全参数微调——就是把所有几十亿参数都更新一遍——或者参数高效微调，比如 LoRA。

LoRA 的做法是给权重矩阵加一个低秩的增量更新。看起来就像在原来的矩阵旁边并联一个小的旁路通道。如果你有 4096×4096 的权重矩阵，LoRA 用一个 4096×rank 的小矩阵加一个 rank×4096 的小矩阵来代替原本的全参数更新。rank 通常很小——4、8、16。

这很成功，几乎成了微调的事实标准。但 Nguyen、Choi 和 Tong 最近在 arXiv 上发了一篇论文（2605.15916），被 IJCAI 2026 接收了——他们指出了 LoRA 的一个微妙问题。

⚠️ 加法和乘法的区别

LoRA 做的是加法。它对原始权重 W 加了一个矩阵 ΔW。这个 ΔW 和 W 的关系非常松散——你加出来的东西不一定保留原始特征空间的几何结构。

我不知道这样说是不是清楚。想象一张世界地图。原始模型的参数把"国家"映射到"首都"，在这个空间里，距离是有意义的——英国和法国在"国家空间"里很近。如果你对这个空间做了一个加法更新（LoRA 那样），新的特征向量和原来的特征向量之间的角度、距离、正交关系全变了。"伦敦"在空间里的位置可能被平移到了"罗马"附近。

对于很多任务，这可能不构成问题。但对于那些依赖原始表示几何的任务——比如检索、匹配、相似度计算——加法更新可能无意中破坏了预训练阶段学到的精细结构。

LoCO 的做法不同。它做的是乘法——但不只是一个乘法，是一个正交变换——也就是旋转。

🔄 旋转为什么更好

旋转保持向量的长度不变。旋转保持向量之间的角度不变。旋转保持整个特征空间的内积结构不变。如果你把"英国"在表示空间里的位置旋转了一下，英国和其他国家的相对关系保持不变。你不会不小心把"英国"弄到"罗马"附近去。

但问题在于：在高维空间里做旋转不便宜。一个 d×d 的正交矩阵里有 d² 个参数，如果 d=4096，那就是 1600 万个参数——这比 LoRA 的参数量大多了，就没意义了。

LoCO 的巧妙在于用一个低秩的反对称矩阵来构造旋转。

反对称矩阵就是矩阵的转置等于它的负，即 Aᵀ = -A。在三维空间里，一个反对称矩阵可以编码一个旋转轴——事实上，你在三维里看到的任何旋转都可以表示成 exp(θA) 其中 A 是反对称矩阵。LoCO 把这个想法推广到了高维：用一个低秩的反对称矩阵（只有 2×rank 的自由度）来生成一个近似正交的变换。

更妙的是，他们还用了"组合旋转链"——不是用一个旋转，而是用好几个旋转串联在一起。每个旋转都很简单（低秩），但串联起来能表示更复杂的变换。而且他们设计了一个近似计算方案，使所有旋转可以并行计算——不是逐个串联，而是一次全算完。这保证了实际的计算成本可控。

📊 效果怎么样

实验结果涵盖了三个阶段。在扩散 Transformer（DiT）的微调上，LoCO 在图像生成质量上优于 LoRA 和其他方法。在视觉 Transformer（ViT）的适配上，它保持或超越了现有的正交方法和非正交方法。在语言模型的适配上也一样。

🤷 我不知道的东西

有几个不清楚的地方。

第一，"保持几何结构"在什么条件下是真正重要的？LoRA 在很多任务上做得很好，即使它不严格保距。LoCO 的优势——保持表示几何——在什么类型的下游任务上会变成可衡量的优势？论文展示的基准任务可能是全面的，但摘要没有讨论这个选择性的问题。

第二，"近似正交"到底"近似"到了什么程度？低秩反对称矩阵生成的旋转是完全正交的吗？还是说有一个可控的误差界？论文提到了"受控近似误差"，但具体多"受控"我无法从摘要确认。

第三，LoCO 增加了额外的超参数：旋转的秩、旋转链的长度。LoRA 已经有两个超参数（rank 和 alpha）。LoCO 的超参数更多，调参成本更高。对实践者来说，这个额外的调参成本是否值得？论文没有给出敏感性分析。

但核心想法简洁有力：不要在你的表示空间里做加法——加法改变了几何。做旋转，旋转什么都保留。

参考文献

Nguyen, A., Choi, J., & Tong, A. (2026). LoCO: Low-rank Compositional Rotation Fine-tuning. arXiv:2605.15916 [cs.LG]. https://arxiv.org/abs/2605.15916 (IJCAI 2026)
Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.
Aghajanyan, A., et al. (2021). Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. ACL 2021.
Li, X., et al. (2024). SoRA: Singular-Value Decomposed Low-Rank Adaptation. ICML 2024.
Gallier, J. (2011). Geometric Methods and Applications (2nd ed.). Springer: Chapters on rotations and the exponential map.

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

微调大模型的新姿势：不是加东西，是转一下

讨论回复

推荐

智谱 GLM-5 已上线