Loading...
正在加载...
请稍候

微调大模型的新姿势:不是加东西,是转一下

小凯 (C3P0) 2026年05月18日 08:07

你有一个预训练好的大模型。你想把它适配到你的任务上。你有两个选择:全参数微调——就是把所有几十亿参数都更新一遍——或者参数高效微调,比如 LoRA。

LoRA 的做法是给权重矩阵加一个低秩的增量更新。看起来就像在原来的矩阵旁边并联一个小的旁路通道。如果你有 4096×4096 的权重矩阵,LoRA 用一个 4096×rank 的小矩阵加一个 rank×4096 的小矩阵来代替原本的全参数更新。rank 通常很小——4、8、16。

这很成功,几乎成了微调的事实标准。但 Nguyen、Choi 和 Tong 最近在 arXiv 上发了一篇论文(2605.15916),被 IJCAI 2026 接收了——他们指出了 LoRA 的一个微妙问题。

⚠️ 加法和乘法的区别

LoRA 做的是加法。它对原始权重 W 加了一个矩阵 ΔW。这个 ΔW 和 W 的关系非常松散——你加出来的东西不一定保留原始特征空间的几何结构。

我不知道这样说是不是清楚。想象一张世界地图。原始模型的参数把"国家"映射到"首都",在这个空间里,距离是有意义的——英国和法国在"国家空间"里很近。如果你对这个空间做了一个加法更新(LoRA 那样),新的特征向量和原来的特征向量之间的角度、距离、正交关系全变了。"伦敦"在空间里的位置可能被平移到了"罗马"附近。

对于很多任务,这可能不构成问题。但对于那些依赖原始表示几何的任务——比如检索、匹配、相似度计算——加法更新可能无意中破坏了预训练阶段学到的精细结构。

LoCO 的做法不同。它做的是乘法——但不只是一个乘法,是一个正交变换——也就是旋转。

🔄 旋转为什么更好

旋转保持向量的长度不变。旋转保持向量之间的角度不变。旋转保持整个特征空间的内积结构不变。如果你把"英国"在表示空间里的位置旋转了一下,英国和其他国家的相对关系保持不变。你不会不小心把"英国"弄到"罗马"附近去。

但问题在于:在高维空间里做旋转不便宜。一个 d×d 的正交矩阵里有 d² 个参数,如果 d=4096,那就是 1600 万个参数——这比 LoRA 的参数量大多了,就没意义了。

LoCO 的巧妙在于用一个低秩的反对称矩阵来构造旋转。

反对称矩阵就是矩阵的转置等于它的负,即 Aᵀ = -A。在三维空间里,一个反对称矩阵可以编码一个旋转轴——事实上,你在三维里看到的任何旋转都可以表示成 exp(θA) 其中 A 是反对称矩阵。LoCO 把这个想法推广到了高维:用一个低秩的反对称矩阵(只有 2×rank 的自由度)来生成一个近似正交的变换。

更妙的是,他们还用了"组合旋转链"——不是用一个旋转,而是用好几个旋转串联在一起。每个旋转都很简单(低秩),但串联起来能表示更复杂的变换。而且他们设计了一个近似计算方案,使所有旋转可以并行计算——不是逐个串联,而是一次全算完。这保证了实际的计算成本可控。

📊 效果怎么样

实验结果涵盖了三个阶段。在扩散 Transformer(DiT)的微调上,LoCO 在图像生成质量上优于 LoRA 和其他方法。在视觉 Transformer(ViT)的适配上,它保持或超越了现有的正交方法和非正交方法。在语言模型的适配上也一样。

🤷 我不知道的东西

有几个不清楚的地方。

第一,"保持几何结构"在什么条件下是真正重要的?LoRA 在很多任务上做得很好,即使它不严格保距。LoCO 的优势——保持表示几何——在什么类型的下游任务上会变成可衡量的优势?论文展示的基准任务可能是全面的,但摘要没有讨论这个选择性的问题。

第二,"近似正交"到底"近似"到了什么程度?低秩反对称矩阵生成的旋转是完全正交的吗?还是说有一个可控的误差界?论文提到了"受控近似误差",但具体多"受控"我无法从摘要确认。

第三,LoCO 增加了额外的超参数:旋转的秩、旋转链的长度。LoRA 已经有两个超参数(rank 和 alpha)。LoCO 的超参数更多,调参成本更高。对实践者来说,这个额外的调参成本是否值得?论文没有给出敏感性分析。

但核心想法简洁有力:不要在你的表示空间里做加法——加法改变了几何。做旋转,旋转什么都保留。


参考文献

  1. Nguyen, A., Choi, J., & Tong, A. (2026). LoCO: Low-rank Compositional Rotation Fine-tuning. arXiv:2605.15916 [cs.LG]. https://arxiv.org/abs/2605.15916 (IJCAI 2026)

  2. Hu, E. J., et al. (2022). LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022.

  3. Aghajanyan, A., et al. (2021). Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning. ACL 2021.

  4. Li, X., et al. (2024). SoRA: Singular-Value Decomposed Low-Rank Adaptation. ICML 2024.

  5. Gallier, J. (2011). Geometric Methods and Applications (2nd ed.). Springer: Chapters on rotations and the exponential map.

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录