🌟 **初读惊艳:当我站在实数与复数的十字路口**
作为在AI量化领域摸爬滚打多年的老兵,我每天都在思考一个终极问题:如何让海量预训练模型既保留灵魂,又能以极低成本在手机和边缘设备上奔跑?当我打开北京大学这篇Fairy2i论文时,仿佛看到一道数学闪电劈开云层。它不是简单的压缩算法,而是用**widely-linear变换**这把无损钥匙,把实数世界的LLaMA checkpoint直接“翻译”成复数域的优雅形式,让{±1, ±i}四种状态完美吃满2-bit编码空间。想象一下,你正站在一个巨大的实数矩阵森林里,每棵树都只能朝两个方向生长,而Fairy2i轻轻一推,就把它们变成了能在复平面上旋转的四向精灵——既不丢一根树叶,又让存储空间瞬间减半。这场革命,从此不再是“从零开始”的孤军奋战,而是站在巨人肩膀上的优雅起飞。
🌀 **困境一:实数表示的瓶颈,像只用一半棋盘下棋**
先来看看传统低比特方法面临的残酷现实。我把核心对比整理成表,让大家一眼看穿问题所在:
| 方法 | Bits | 表示空间利用率 | 问题 |
|---------------|--------|--------------------|-----------------------|
| 二值 {+1, -1} | 1-bit | 2^1 = 2 | 过度压缩,信息严重丢失 |
| 三值 {+1, 0, -1} | 1.58-bit | 3种状态 | 2-bit编码空间浪费25% |
| 复数 {±1, ±i} | 2-bit | 4种状态 = 2^2 | 完美吃满,无浪费 |
实数二值和三值就像只用黑白棋盘的一半格子下国际象棋,剩下的空间白白浪费。而复数{±1, ±i}对应复平面上四个象限的精确方向,2-bit编码被100%利用。这就是Fairy2i最核心的洞察:**不是压缩得更狠,而是编码得更聪明**。当我第一次看到这个表格时,脑中立刻浮现出“四象限罗盘”的画面——权重不再是直线上可怜的跳跃,而是能在平面优雅旋转的矢量,每一次量化都精准落在最近的单位根上。
🧩 **困境二与三:复数模型的孤岛,以及精度与深度的拉锯战**
更棘手的是,复数模型虽然天生适合低比特,却无法复用LLaMA、Qwen这些现成checkpoint,必须从零QAT训练,成本高得吓人。实数BitNet虽然能二值化,但损失惨重。传统PTQ方法如GPTQ、AQLM、QuIP#要么精度掉得厉害,要么依然需要不少校准数据。三重困境像三座大山压在研究者胸口:极低比特、保持精度、复用预训练——三者似乎永远不可能同时满足。
基于此,我们进一步探索Fairy2i的三步解决方案,它像一位高明的魔术师,用三记连击同时打破三座山。
📐 **Step 1:Widely-Linear变换——实数到复数的数学无损之桥**
核心定理(Theorem 1)优雅而强大:任意实数线性变换 $\tilde{y} = R\tilde{x}$($R \in \mathbb{R}^{(2n) \times (2m)}$)可严格等价地表示为复数widely-linear形式:
$$y = Ux + W\bar{x}$$
其中$U, W \in \mathbb{C}^{n \times m}$,$\bar{x}$是$x$的共轭。参数对应公式把实矩阵$R$分块后,通过简单平均得到U和W的实虚部:
$$\begin{cases} \Re U = \frac{1}{2}(R_{11}+R_{22}), & \Im U = \frac{1}{2}(R_{21}-R_{12}) \\ \Re W = \frac{1}{2}(R_{11}-R_{22}), & \Im W = \frac{1}{2}(R_{12}+R_{21}) \end{cases}$$
> 注解:这个变换是严格数学等价,不是近似!U和W各含n×m个复数参数,总存储量只有原来实数参数的一半。当后续用2-bit量化时,每个实参数只需1-bit即可精确表示。这就像把一张平铺的实数地图巧妙折叠进复数空间,尺寸形状完全不变,却腾出了整整一半的存储空间。变量含义清晰:R的四个子块通过平均“拆解”成复数实虚部,确保前向传播和反向梯度在数学上完全一致。
这意味着什么?在LLaMA-2 7B上,Fairy2i-W2只需约3.5GB存储,而FP16需要14GB,足足省下75%!峰值内存也从28GB暴降到7GB,手机本地运行7B模型不再是梦。
🔄 **Step 2:Phase-Aware复数量化——四次单位根的精准投影**
量化过程同样充满美感。Codebook设计为 $S_{\text{2-bit}} = \{\pm 1, \pm i\}$。量化公式:
$$b(w) = \arg\max_{s \in S_{\text{2-bit}}} \Re(w\bar{s})$$
直观解释:取权重$w$的相位$\theta = \arg(w)$,直接投影到最近的四次单位根(四个象限方向)。轴向Scaling再分别计算实部和虚部的均值缩放因子,最后反量化:
$$\hat{w} = s_{\text{re}}b_{\text{re}} + i \cdot s_{\text{im}}b_{\text{im}}$$
想象权重是一个在复平面上飞舞的箭头,PhaseQuant就像一个智能罗盘,永远把箭头锁定在正东、正西、正北、正南四个精确方向上——既保留了方向信息,又把连续值离散成最节省的2-bit编码。
🔁 **Step 3:递归残差量化——多阶段误差捕获的艺术**
核心思想是把权重写成多个低比特项之和,每一项专门拟合上一项的残差:
$$W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)}$$
其中$R^{(0)} = W$,$R^{(t+1)} = R^{(t)} - \tilde{W}^{(t)}$。消融实验清晰显示T=2是甜蜜点:
| 配置 | Bits | C4 PPL | Avg. | 收益 |
|-----------------|------|--------|--------|------------|
| Fairy2i-W1 (T=1)| 1 | 11.03 | 48.66 | 基准 |
| Fairy2i-W2 (T=2)| 2 | 8.74 | 57.92 | +19% Avg |
| Fairy2i-W3 (T=3)| 3 | 8.38 | 58.43 | +1% Avg |
T=1到T=2收益巨大,T=2到T=3边际递减——第一阶段已捕获主误差,第二阶段锦上添花。这就像画家先用粗笔勾勒轮廓,再用细笔精修细节,第三笔已经收益甚微。
📊 **实验战场:LLaMA-2 7B上的华丽数据**
在C4困惑度测试中,Fairy2i-W2以7.85的成绩惊艳全场,仅比全精度6.63高18%,却远超GPTQ(10.61)、AQLM(8.54)和Real-Binary(11.75)。零样本任务均值62.00 vs 全精度64.72,仅差4.2%:
| 方法 | Bits | ARC-e | ARC-c | HellaSwag | PIQA | Wino | Avg. |
|-----------------|------|--------|--------|-----------|--------|--------|--------|
| LLaMA-2 FP16 | 16 | 75.59 | 43.17 | 57.06 | 77.91 | 69.85 | 64.72 |
| Fairy2i-W2 | 2 | 72.73 | 39.76 | 53.33 | 76.17 | 68.03 | 62.00 |
| Real-Binary | 1 | 53.32 | 22.70 | 35.57 | 66.81 | 52.64 | 46.21 |
我反复核对这些数字时,忍不住微笑——2-bit复数量化居然能把1-bit实数方法甩开2.45个百分点,把3-bit GPTQ也按在地上摩擦。这不是运气,是数学的胜利。
🧪 **消融与训练细节:学习率衰减的隐秘力量**
学习率策略对比同样耐人寻味:双次衰减(LR3)把PPL压到7.85,平均准确率拉到62.00,而无衰减(LR1)则逊色不少。训练使用30B RedPajama tokens + AdamW + WSD Scheduler,证明低比特优化对学习率调度高度敏感,但整体鲁棒性强。
⚔️ **与相关工作对比:复用优于从零,复数优于实数**
与BitNet 1.58-bit相比,Fairy2i-W2用复数二值完美吃满2-bit空间,而BitNet三值浪费25%编码能力;与iFairy相比,Fairy2i通过widely-linear变换直接复用LLaMA checkpoint,训练成本从天价降到可接受的30B tokens;与GPTQ/AQLM/QuIP#这些PTQ方法相比,Fairy2i虽然需要继续训练,却换来显著更好的精度——权衡之下,QAT带来的收益远超额外成本。
🚀 **产业意义:边缘设备上的“无乘法”革命**
存储效率表一目了然:
| 配置 | 阶段数T | 有效比特/实参数 | 存储(LLaMA-2 7B) |
|--------------|---------|-----------------|---------------------|
| Fairy2i-W1 | 1 | 1-bit | ~1.75 GB |
| Fairy2i-W2 | 2 | 2-bit | ~3.5 GB |
| FP16(基准) | — | 16-bit | ~14 GB |
无乘法推理更妙:$B_{\text{re}}, B_{\text{im}} \in \{-1, 0, 1\}$让矩阵乘法变成加/减/跳过;乘以±i等价于交换实虚部并符号翻转,各阶段可并行执行,理论延迟近似O(1),FLOPs降低约25%。在手机上,这意味着电池续航大幅提升,隐私全本地守护。
🌍 **三大启示与未来挑战**
第一,**表示效率胜过盲目压缩**:复数{±1, ±i}天然匹配2-bit空间,不是更精细的量化,而是更聪明的编码。第二,**数学变换的零成本收益**:widely-linear是严格无损的理论基石。第三,**复用优于从零**:Fairy2i证明站在预训练巨人肩膀上继续训练,远比孤军奋战高效。
当然,局限依然存在:30B tokens训练对小实验室仍昂贵,专用CUDA kernel尚未完全开发,硬件加速效果待实测,LLaMA-3 70B等更大模型验证仍在路上。但这些都是成长中的阵痛,而非致命伤。
------
📚 **参考文献**
1. Feiyu Wang, Xinyu Tan, Bokai Huang, et al. Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in {±1, ±i}. arXiv:2512.02901, 2025 (v3 2026-01-29).
2. 于游. 论文阅读:Fairy2i: 复数低比特量化的革命性突破. 于游的碎碎念公众号, 2026-05-07.
3. Touvron et al. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288, 2023.
4. Ma et al. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. 相关BitNet系列工作, 2024.
5. Egiazarian et al. AQLM: Additive Quantization for Language Models. 相关PTQ方法对比基准, 2024.
当我写完这篇阅读笔记时,窗外天色已晚,但我心中却亮着复数平面的四盏明灯。Fairy2i不是终点,而是低比特量化从“工程优化”走向“数学重构”的里程碑。未来,当你的手机里跑着用{±1, ±i}武装的聪明助手时,请记得:这一切,始于北京大学那群勇敢的数学探险家,和他们用widely-linear搭起的优雅桥梁。
登录后可参与表态
讨论回复
1 条回复
✨步子哥 (steper)
#1
2026-05-07 08:03
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力