复数之翼：Fairy2i 用±1与±i为大模型插上低比特飞翔的翅膀

✨步子哥 (steper) • 2026年05月07日 07:55

                        🌟 **初读惊艳：当我站在实数与复数的十字路口**

作为在AI量化领域摸爬滚打多年的老兵，我每天都在思考一个终极问题：如何让海量预训练模型既保留灵魂，又能以极低成本在手机和边缘设备上奔跑？当我打开北京大学这篇Fairy2i论文时，仿佛看到一道数学闪电劈开云层。它不是简单的压缩算法，而是用**widely-linear变换**这把无损钥匙，把实数世界的LLaMA checkpoint直接“翻译”成复数域的优雅形式，让{±1, ±i}四种状态完美吃满2-bit编码空间。想象一下，你正站在一个巨大的实数矩阵森林里，每棵树都只能朝两个方向生长，而Fairy2i轻轻一推，就把它们变成了能在复平面上旋转的四向精灵——既不丢一根树叶，又让存储空间瞬间减半。这场革命，从此不再是“从零开始”的孤军奋战，而是站在巨人肩膀上的优雅起飞。

🌀 **困境一：实数表示的瓶颈，像只用一半棋盘下棋**

先来看看传统低比特方法面临的残酷现实。我把核心对比整理成表，让大家一眼看穿问题所在：

| 方法          | Bits   | 表示空间利用率     | 问题                  |
|---------------|--------|--------------------|-----------------------|
| 二值 {+1, -1} | 1-bit  | 2^1 = 2            | 过度压缩，信息严重丢失 |
| 三值 {+1, 0, -1} | 1.58-bit | 3种状态           | 2-bit编码空间浪费25%   |
| 复数 {±1, ±i} | 2-bit  | 4种状态 = 2^2      | 完美吃满，无浪费       |

实数二值和三值就像只用黑白棋盘的一半格子下国际象棋，剩下的空间白白浪费。而复数{±1, ±i}对应复平面上四个象限的精确方向，2-bit编码被100%利用。这就是Fairy2i最核心的洞察：**不是压缩得更狠，而是编码得更聪明**。当我第一次看到这个表格时，脑中立刻浮现出“四象限罗盘”的画面——权重不再是直线上可怜的跳跃，而是能在平面优雅旋转的矢量，每一次量化都精准落在最近的单位根上。

🧩 **困境二与三：复数模型的孤岛，以及精度与深度的拉锯战**

更棘手的是，复数模型虽然天生适合低比特，却无法复用LLaMA、Qwen这些现成checkpoint，必须从零QAT训练，成本高得吓人。实数BitNet虽然能二值化，但损失惨重。传统PTQ方法如GPTQ、AQLM、QuIP#要么精度掉得厉害，要么依然需要不少校准数据。三重困境像三座大山压在研究者胸口：极低比特、保持精度、复用预训练——三者似乎永远不可能同时满足。

基于此，我们进一步探索Fairy2i的三步解决方案，它像一位高明的魔术师，用三记连击同时打破三座山。

📐 **Step 1：Widely-Linear变换——实数到复数的数学无损之桥**

核心定理（Theorem 1）优雅而强大：任意实数线性变换 $\tilde{y} = R\tilde{x}$（$R \in \mathbb{R}^{(2n) \times (2m)}$）可严格等价地表示为复数widely-linear形式：

$$y = Ux + W\bar{x}$$

其中$U, W \in \mathbb{C}^{n \times m}$，$\bar{x}$是$x$的共轭。参数对应公式把实矩阵$R$分块后，通过简单平均得到U和W的实虚部：

$$\begin{cases} \Re U = \frac{1}{2}(R_{11}+R_{22}), & \Im U = \frac{1}{2}(R_{21}-R_{12}) \\ \Re W = \frac{1}{2}(R_{11}-R_{22}), & \Im W = \frac{1}{2}(R_{12}+R_{21}) \end{cases}$$

> 注解：这个变换是严格数学等价，不是近似！U和W各含n×m个复数参数，总存储量只有原来实数参数的一半。当后续用2-bit量化时，每个实参数只需1-bit即可精确表示。这就像把一张平铺的实数地图巧妙折叠进复数空间，尺寸形状完全不变，却腾出了整整一半的存储空间。变量含义清晰：R的四个子块通过平均“拆解”成复数实虚部，确保前向传播和反向梯度在数学上完全一致。

这意味着什么？在LLaMA-2 7B上，Fairy2i-W2只需约3.5GB存储，而FP16需要14GB，足足省下75%！峰值内存也从28GB暴降到7GB，手机本地运行7B模型不再是梦。

🔄 **Step 2：Phase-Aware复数量化——四次单位根的精准投影**

量化过程同样充满美感。Codebook设计为 $S_{\text{2-bit}} = \{\pm 1, \pm i\}$。量化公式：

$$b(w) = \arg\max_{s \in S_{\text{2-bit}}} \Re(w\bar{s})$$

直观解释：取权重$w$的相位$\theta = \arg(w)$，直接投影到最近的四次单位根（四个象限方向）。轴向Scaling再分别计算实部和虚部的均值缩放因子，最后反量化：

$$\hat{w} = s_{\text{re}}b_{\text{re}} + i \cdot s_{\text{im}}b_{\text{im}}$$

想象权重是一个在复平面上飞舞的箭头，PhaseQuant就像一个智能罗盘，永远把箭头锁定在正东、正西、正北、正南四个精确方向上——既保留了方向信息，又把连续值离散成最节省的2-bit编码。

🔁 **Step 3：递归残差量化——多阶段误差捕获的艺术**

核心思想是把权重写成多个低比特项之和，每一项专门拟合上一项的残差：

$$W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)}$$

其中$R^{(0)} = W$，$R^{(t+1)} = R^{(t)} - \tilde{W}^{(t)}$。消融实验清晰显示T=2是甜蜜点：

| 配置            | Bits | C4 PPL | Avg.   | 收益       |
|-----------------|------|--------|--------|------------|
| Fairy2i-W1 (T=1)| 1    | 11.03  | 48.66  | 基准       |
| Fairy2i-W2 (T=2)| 2    | 8.74   | 57.92  | +19% Avg   |
| Fairy2i-W3 (T=3)| 3    | 8.38   | 58.43  | +1% Avg    |

T=1到T=2收益巨大，T=2到T=3边际递减——第一阶段已捕获主误差，第二阶段锦上添花。这就像画家先用粗笔勾勒轮廓，再用细笔精修细节，第三笔已经收益甚微。

📊 **实验战场：LLaMA-2 7B上的华丽数据**

在C4困惑度测试中，Fairy2i-W2以7.85的成绩惊艳全场，仅比全精度6.63高18%，却远超GPTQ（10.61）、AQLM（8.54）和Real-Binary（11.75）。零样本任务均值62.00 vs 全精度64.72，仅差4.2%：

| 方法            | Bits | ARC-e  | ARC-c  | HellaSwag | PIQA   | Wino   | Avg.   |
|-----------------|------|--------|--------|-----------|--------|--------|--------|
| LLaMA-2 FP16    | 16   | 75.59  | 43.17  | 57.06     | 77.91  | 69.85  | 64.72  |
| Fairy2i-W2      | 2    | 72.73  | 39.76  | 53.33     | 76.17  | 68.03  | 62.00  |
| Real-Binary     | 1    | 53.32  | 22.70  | 35.57     | 66.81  | 52.64  | 46.21  |

我反复核对这些数字时，忍不住微笑——2-bit复数量化居然能把1-bit实数方法甩开2.45个百分点，把3-bit GPTQ也按在地上摩擦。这不是运气，是数学的胜利。

🧪 **消融与训练细节：学习率衰减的隐秘力量**

学习率策略对比同样耐人寻味：双次衰减（LR3）把PPL压到7.85，平均准确率拉到62.00，而无衰减（LR1）则逊色不少。训练使用30B RedPajama tokens + AdamW + WSD Scheduler，证明低比特优化对学习率调度高度敏感，但整体鲁棒性强。

⚔️ **与相关工作对比：复用优于从零，复数优于实数**

与BitNet 1.58-bit相比，Fairy2i-W2用复数二值完美吃满2-bit空间，而BitNet三值浪费25%编码能力；与iFairy相比，Fairy2i通过widely-linear变换直接复用LLaMA checkpoint，训练成本从天价降到可接受的30B tokens；与GPTQ/AQLM/QuIP#这些PTQ方法相比，Fairy2i虽然需要继续训练，却换来显著更好的精度——权衡之下，QAT带来的收益远超额外成本。

🚀 **产业意义：边缘设备上的“无乘法”革命**

存储效率表一目了然：

| 配置         | 阶段数T | 有效比特/实参数 | 存储（LLaMA-2 7B） |
|--------------|---------|-----------------|---------------------|
| Fairy2i-W1   | 1       | 1-bit           | ~1.75 GB            |
| Fairy2i-W2   | 2       | 2-bit           | ~3.5 GB             |
| FP16（基准） | —       | 16-bit          | ~14 GB              |

无乘法推理更妙：$B_{\text{re}}, B_{\text{im}} \in \{-1, 0, 1\}$让矩阵乘法变成加/减/跳过；乘以±i等价于交换实虚部并符号翻转，各阶段可并行执行，理论延迟近似O(1)，FLOPs降低约25%。在手机上，这意味着电池续航大幅提升，隐私全本地守护。

🌍 **三大启示与未来挑战**

第一，**表示效率胜过盲目压缩**：复数{±1, ±i}天然匹配2-bit空间，不是更精细的量化，而是更聪明的编码。第二，**数学变换的零成本收益**：widely-linear是严格无损的理论基石。第三，**复用优于从零**：Fairy2i证明站在预训练巨人肩膀上继续训练，远比孤军奋战高效。

当然，局限依然存在：30B tokens训练对小实验室仍昂贵，专用CUDA kernel尚未完全开发，硬件加速效果待实测，LLaMA-3 70B等更大模型验证仍在路上。但这些都是成长中的阵痛，而非致命伤。

------
📚 **参考文献**

1. Feiyu Wang, Xinyu Tan, Bokai Huang, et al. Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in {±1, ±i}. arXiv:2512.02901, 2025 (v3 2026-01-29).

2. 于游. 论文阅读：Fairy2i: 复数低比特量化的革命性突破. 于游的碎碎念公众号, 2026-05-07.

3. Touvron et al. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288, 2023.

4. Ma et al. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. 相关BitNet系列工作, 2024.

5. Egiazarian et al. AQLM: Additive Quantization for Language Models. 相关PTQ方法对比基准, 2024.

当我写完这篇阅读笔记时，窗外天色已晚，但我心中却亮着复数平面的四盏明灯。Fairy2i不是终点，而是低比特量化从“工程优化”走向“数学重构”的里程碑。未来，当你的手机里跑着用{±1, ±i}武装的聪明助手时，请记得：这一切，始于北京大学那群勇敢的数学探险家，和他们用widely-linear搭起的优雅桥梁。

讨论回复

1 条回复

✨步子哥 (steper) #1

2026-05-07 08:03

                                        **《复数之钥：费曼教我用最简单的话讲透widely-linear变换》**

🌟 **费曼开场白：从厨房到复平面的奇妙旅程**

我作为浸淫AI二十年的老兵，读到北京大学Fairy2i论文时，心头像被费曼那把“用最简单语言解释宇宙”的火把点燃。他老人家总说：如果你不能用简单的话讲清楚，就是还没真正懂。今天，我就用费曼笔法，带大家从厨房灶台一步步走进widely-linear变换的复数世界。想象一下，你正在炒菜，左手拿盐罐，右手拿油瓶，两个实数动作同时进行，却不想让厨房乱套。widely-linear就像给这双手装上一个“复数旋转器”，让它们在平面里优雅共舞，却不增加任何新锅碗瓢盆。这就是论文核心：把实数模型无损变成复数形式，让{±1, ±i}四种状态把2-bit空间吃得干干净净。

🌀 **第一重困境：实数像只用一半棋盘下象棋**

先说说为什么需要这个变换。传统低比特方法像下象棋只用黑格子，白格子白白浪费。看看这张表就明白了：

| 方法          | Bits   | 表示空间利用率 | 问题             |
|---------------|--------|----------------|------------------|
| 二值 {+1, -1} | 1-bit  | 2种状态        | 信息严重丢失     |
| 三值 {+1, 0, -1} | 1.58-bit | 3种状态     | 浪费25%编码空间  |
| 复数 {±1, ±i} | 2-bit  | 4种状态        | 完美吃满，无浪费 |

费曼会说：这就像你只有两个方向走路，却硬要装四个方向的指南针。复数域的{±1, ±i}正好对应复平面四个象限，2-bit编码被100%利用。基于此，我们进一步探索：能否把LLaMA这种实数巨人直接“翻译”成复数形式，而不从零开始训练？

📐 **widely-linear的魔法公式：实数变复数的无损折叠**

核心定理像费曼最爱的思想实验：假设你有一张实数大表格R，它负责把输入x变成输出y。现在，我们把表格对折成两半，变成复数形式：

$$ y = Ux + W\bar{x} $$

其中U和W是复数矩阵，$\bar{x}$是x的共轭。参数对应公式超级简单：

$$\begin{cases} \Re U = \frac12(R_{11}+R_{22}), & \Im U = \frac12(R_{21}-R_{12}) \\ \Re W = \frac12(R_{11}-R_{22}), & \Im W = \frac12(R_{12}+R_{21}) \end{cases}$$

> 注解：这个变换严格数学等价，没有任何信息丢失！U和W各含一半复数参数，总存储量减半。当后面用2-bit量化时，每个实参数只需1-bit就能精确还原。这就像把一张平铺的地图对折成一本立体书，内容完全一样，却腾出整整一半书架空间。变量含义：R的四个子块通过平均“拆解”成复数实虚部，前向和反向传播数学上完全一致。

想象你是一个小学生，老师给你两个实数长度和宽度，现在老师说：“把它们变成复数箭头，在平面里旋转。”widely-linear就是那个不会丢掉任何长度的神奇旋转器！

🔄 **Phase-Aware量化：四方罗盘的精准锁定**

变换完成后，权重变成复数箭头。PhaseQuant就像费曼最爱的“用物理直觉思考”：取箭头相位，直接投到最近的四个单位根上。公式：

$$ b(w) = \arg\max_{s \in \{\pm1,\pm i\}} \Re(w\bar{s}) $$

轴向缩放再算实部和虚部均值，最后反量化。整个过程像罗盘永远指向正东正西正北正南，既保留方向，又把连续值变成最省的2-bit编码。

🔁 **递归残差：多阶段捕获误差的画家技法**

权重表示成多阶段之和，每阶段只画上一阶段的残差：

$$ W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)} $$

消融实验像费曼做小实验一样清晰：

| 配置            | Bits | C4 PPL | 平均准确率 | 收益     |
|-----------------|------|--------|------------|----------|
| Fairy2i-W1 (T=1)| 1    | 11.03  | 48.66      | 基准     |
| Fairy2i-W2 (T=2)| 2    | 8.74   | 57.92      | +19%     |
| Fairy2i-W3 (T=3)| 3    | 8.38   | 58.43      | +1%      |

T=2是甜蜜点，第一阶段抓大头，第二阶段精修，就像画家先粗笔勾轮廓，再细笔点睛。

📊 **实验数据说话：LLaMA-2 7B上的华丽转身**

C4困惑度上，Fairy2i-W2只比全精度高18%，却远超GPTQ和AQLM。零样本任务平均62.00 vs 全精度64.72。表格最直观：

| 方法         | Bits | ARC-e  | ARC-c | HellaSwag | PIQA  | Wino  | 平均   |
|--------------|------|--------|-------|-----------|-------|-------|--------|
| FP16         | 16   | 75.59  | 43.17 | 57.06     | 77.91 | 69.85 | 64.72  |
| Fairy2i-W2   | 2    | 72.73  | 39.76 | 53.33     | 76.17 | 68.03 | 62.00  |
| Real-Binary  | 1    | 53.32  | 22.70 | 35.57     | 66.81 | 52.64 | 46.21  |

存储效率更震撼：7B模型从14GB缩到3.5GB，峰值内存从28GB到7GB。无乘法推理——加减跳过替代乘法，乘±i就是交换实虚部翻符号，理论加速25%。

⚔️ **与BitNet、iFairy、PTQ对比：复用才是王道**

BitNet三值浪费25%空间，iFairy必须从零训练，Fairy2i站在LLaMA肩膀上继续30B tokens训练，成本低、效果好。PTQ方法无需训练但精度差，Fairy2i用QAT换来显著收益。

🚀 **产业启示与三大洞见**

边缘设备上，手机本地跑7B模型成为可能，隐私全在口袋。三大启示：表示效率胜过盲目压缩；数学变换零成本收益；复用优于从零。局限是30B tokens仍贵，硬件kernel待开发，但这些都是成长烦恼。

--------
📚 **参考文献**

1. Feiyu Wang et al. Fairy2i: Training Complex LLMs... arXiv:2512.02901, 2025.

2. 于游. 论文阅读：Fairy2i... 于游的碎碎念, 2026.

3. Touvron et al. Llama 2... arXiv:2307.09288, 2023.

4. Ma et al. The Era of 1-bit LLMs... 2024.

5. Egiazarian et al. AQLM... 2024.

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

复数之翼：Fairy2i 用±1与±i为大模型插上低比特飞翔的翅膀

讨论回复

推荐

智谱 GLM-5 已上线