Loading...
正在加载...
请稍候

复数之翼:Fairy2i 用±1与±i为大模型插上低比特飞翔的翅膀

✨步子哥 (steper) 2026年05月07日 07:55
🌟 **初读惊艳:当我站在实数与复数的十字路口** 作为在AI量化领域摸爬滚打多年的老兵,我每天都在思考一个终极问题:如何让海量预训练模型既保留灵魂,又能以极低成本在手机和边缘设备上奔跑?当我打开北京大学这篇Fairy2i论文时,仿佛看到一道数学闪电劈开云层。它不是简单的压缩算法,而是用**widely-linear变换**这把无损钥匙,把实数世界的LLaMA checkpoint直接“翻译”成复数域的优雅形式,让{±1, ±i}四种状态完美吃满2-bit编码空间。想象一下,你正站在一个巨大的实数矩阵森林里,每棵树都只能朝两个方向生长,而Fairy2i轻轻一推,就把它们变成了能在复平面上旋转的四向精灵——既不丢一根树叶,又让存储空间瞬间减半。这场革命,从此不再是“从零开始”的孤军奋战,而是站在巨人肩膀上的优雅起飞。 🌀 **困境一:实数表示的瓶颈,像只用一半棋盘下棋** 先来看看传统低比特方法面临的残酷现实。我把核心对比整理成表,让大家一眼看穿问题所在: | 方法 | Bits | 表示空间利用率 | 问题 | |---------------|--------|--------------------|-----------------------| | 二值 {+1, -1} | 1-bit | 2^1 = 2 | 过度压缩,信息严重丢失 | | 三值 {+1, 0, -1} | 1.58-bit | 3种状态 | 2-bit编码空间浪费25% | | 复数 {±1, ±i} | 2-bit | 4种状态 = 2^2 | 完美吃满,无浪费 | 实数二值和三值就像只用黑白棋盘的一半格子下国际象棋,剩下的空间白白浪费。而复数{±1, ±i}对应复平面上四个象限的精确方向,2-bit编码被100%利用。这就是Fairy2i最核心的洞察:**不是压缩得更狠,而是编码得更聪明**。当我第一次看到这个表格时,脑中立刻浮现出“四象限罗盘”的画面——权重不再是直线上可怜的跳跃,而是能在平面优雅旋转的矢量,每一次量化都精准落在最近的单位根上。 🧩 **困境二与三:复数模型的孤岛,以及精度与深度的拉锯战** 更棘手的是,复数模型虽然天生适合低比特,却无法复用LLaMA、Qwen这些现成checkpoint,必须从零QAT训练,成本高得吓人。实数BitNet虽然能二值化,但损失惨重。传统PTQ方法如GPTQ、AQLM、QuIP#要么精度掉得厉害,要么依然需要不少校准数据。三重困境像三座大山压在研究者胸口:极低比特、保持精度、复用预训练——三者似乎永远不可能同时满足。 基于此,我们进一步探索Fairy2i的三步解决方案,它像一位高明的魔术师,用三记连击同时打破三座山。 📐 **Step 1:Widely-Linear变换——实数到复数的数学无损之桥** 核心定理(Theorem 1)优雅而强大:任意实数线性变换 $\tilde{y} = R\tilde{x}$($R \in \mathbb{R}^{(2n) \times (2m)}$)可严格等价地表示为复数widely-linear形式: $$y = Ux + W\bar{x}$$ 其中$U, W \in \mathbb{C}^{n \times m}$,$\bar{x}$是$x$的共轭。参数对应公式把实矩阵$R$分块后,通过简单平均得到U和W的实虚部: $$\begin{cases} \Re U = \frac{1}{2}(R_{11}+R_{22}), & \Im U = \frac{1}{2}(R_{21}-R_{12}) \\ \Re W = \frac{1}{2}(R_{11}-R_{22}), & \Im W = \frac{1}{2}(R_{12}+R_{21}) \end{cases}$$ > 注解:这个变换是严格数学等价,不是近似!U和W各含n×m个复数参数,总存储量只有原来实数参数的一半。当后续用2-bit量化时,每个实参数只需1-bit即可精确表示。这就像把一张平铺的实数地图巧妙折叠进复数空间,尺寸形状完全不变,却腾出了整整一半的存储空间。变量含义清晰:R的四个子块通过平均“拆解”成复数实虚部,确保前向传播和反向梯度在数学上完全一致。 这意味着什么?在LLaMA-2 7B上,Fairy2i-W2只需约3.5GB存储,而FP16需要14GB,足足省下75%!峰值内存也从28GB暴降到7GB,手机本地运行7B模型不再是梦。 🔄 **Step 2:Phase-Aware复数量化——四次单位根的精准投影** 量化过程同样充满美感。Codebook设计为 $S_{\text{2-bit}} = \{\pm 1, \pm i\}$。量化公式: $$b(w) = \arg\max_{s \in S_{\text{2-bit}}} \Re(w\bar{s})$$ 直观解释:取权重$w$的相位$\theta = \arg(w)$,直接投影到最近的四次单位根(四个象限方向)。轴向Scaling再分别计算实部和虚部的均值缩放因子,最后反量化: $$\hat{w} = s_{\text{re}}b_{\text{re}} + i \cdot s_{\text{im}}b_{\text{im}}$$ 想象权重是一个在复平面上飞舞的箭头,PhaseQuant就像一个智能罗盘,永远把箭头锁定在正东、正西、正北、正南四个精确方向上——既保留了方向信息,又把连续值离散成最节省的2-bit编码。 🔁 **Step 3:递归残差量化——多阶段误差捕获的艺术** 核心思想是把权重写成多个低比特项之和,每一项专门拟合上一项的残差: $$W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)}$$ 其中$R^{(0)} = W$,$R^{(t+1)} = R^{(t)} - \tilde{W}^{(t)}$。消融实验清晰显示T=2是甜蜜点: | 配置 | Bits | C4 PPL | Avg. | 收益 | |-----------------|------|--------|--------|------------| | Fairy2i-W1 (T=1)| 1 | 11.03 | 48.66 | 基准 | | Fairy2i-W2 (T=2)| 2 | 8.74 | 57.92 | +19% Avg | | Fairy2i-W3 (T=3)| 3 | 8.38 | 58.43 | +1% Avg | T=1到T=2收益巨大,T=2到T=3边际递减——第一阶段已捕获主误差,第二阶段锦上添花。这就像画家先用粗笔勾勒轮廓,再用细笔精修细节,第三笔已经收益甚微。 📊 **实验战场:LLaMA-2 7B上的华丽数据** 在C4困惑度测试中,Fairy2i-W2以7.85的成绩惊艳全场,仅比全精度6.63高18%,却远超GPTQ(10.61)、AQLM(8.54)和Real-Binary(11.75)。零样本任务均值62.00 vs 全精度64.72,仅差4.2%: | 方法 | Bits | ARC-e | ARC-c | HellaSwag | PIQA | Wino | Avg. | |-----------------|------|--------|--------|-----------|--------|--------|--------| | LLaMA-2 FP16 | 16 | 75.59 | 43.17 | 57.06 | 77.91 | 69.85 | 64.72 | | Fairy2i-W2 | 2 | 72.73 | 39.76 | 53.33 | 76.17 | 68.03 | 62.00 | | Real-Binary | 1 | 53.32 | 22.70 | 35.57 | 66.81 | 52.64 | 46.21 | 我反复核对这些数字时,忍不住微笑——2-bit复数量化居然能把1-bit实数方法甩开2.45个百分点,把3-bit GPTQ也按在地上摩擦。这不是运气,是数学的胜利。 🧪 **消融与训练细节:学习率衰减的隐秘力量** 学习率策略对比同样耐人寻味:双次衰减(LR3)把PPL压到7.85,平均准确率拉到62.00,而无衰减(LR1)则逊色不少。训练使用30B RedPajama tokens + AdamW + WSD Scheduler,证明低比特优化对学习率调度高度敏感,但整体鲁棒性强。 ⚔️ **与相关工作对比:复用优于从零,复数优于实数** 与BitNet 1.58-bit相比,Fairy2i-W2用复数二值完美吃满2-bit空间,而BitNet三值浪费25%编码能力;与iFairy相比,Fairy2i通过widely-linear变换直接复用LLaMA checkpoint,训练成本从天价降到可接受的30B tokens;与GPTQ/AQLM/QuIP#这些PTQ方法相比,Fairy2i虽然需要继续训练,却换来显著更好的精度——权衡之下,QAT带来的收益远超额外成本。 🚀 **产业意义:边缘设备上的“无乘法”革命** 存储效率表一目了然: | 配置 | 阶段数T | 有效比特/实参数 | 存储(LLaMA-2 7B) | |--------------|---------|-----------------|---------------------| | Fairy2i-W1 | 1 | 1-bit | ~1.75 GB | | Fairy2i-W2 | 2 | 2-bit | ~3.5 GB | | FP16(基准) | — | 16-bit | ~14 GB | 无乘法推理更妙:$B_{\text{re}}, B_{\text{im}} \in \{-1, 0, 1\}$让矩阵乘法变成加/减/跳过;乘以±i等价于交换实虚部并符号翻转,各阶段可并行执行,理论延迟近似O(1),FLOPs降低约25%。在手机上,这意味着电池续航大幅提升,隐私全本地守护。 🌍 **三大启示与未来挑战** 第一,**表示效率胜过盲目压缩**:复数{±1, ±i}天然匹配2-bit空间,不是更精细的量化,而是更聪明的编码。第二,**数学变换的零成本收益**:widely-linear是严格无损的理论基石。第三,**复用优于从零**:Fairy2i证明站在预训练巨人肩膀上继续训练,远比孤军奋战高效。 当然,局限依然存在:30B tokens训练对小实验室仍昂贵,专用CUDA kernel尚未完全开发,硬件加速效果待实测,LLaMA-3 70B等更大模型验证仍在路上。但这些都是成长中的阵痛,而非致命伤。 ------ 📚 **参考文献** 1. Feiyu Wang, Xinyu Tan, Bokai Huang, et al. Fairy2i: Training Complex LLMs from Real LLMs with All Parameters in {±1, ±i}. arXiv:2512.02901, 2025 (v3 2026-01-29). 2. 于游. 论文阅读:Fairy2i: 复数低比特量化的革命性突破. 于游的碎碎念公众号, 2026-05-07. 3. Touvron et al. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288, 2023. 4. Ma et al. The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits. 相关BitNet系列工作, 2024. 5. Egiazarian et al. AQLM: Additive Quantization for Language Models. 相关PTQ方法对比基准, 2024. 当我写完这篇阅读笔记时,窗外天色已晚,但我心中却亮着复数平面的四盏明灯。Fairy2i不是终点,而是低比特量化从“工程优化”走向“数学重构”的里程碑。未来,当你的手机里跑着用{±1, ±i}武装的聪明助手时,请记得:这一切,始于北京大学那群勇敢的数学探险家,和他们用widely-linear搭起的优雅桥梁。

讨论回复

1 条回复
✨步子哥 (steper) #1
2026-05-07 08:03
**《复数之钥:费曼教我用最简单的话讲透widely-linear变换》** 🌟 **费曼开场白:从厨房到复平面的奇妙旅程** 我作为浸淫AI二十年的老兵,读到北京大学Fairy2i论文时,心头像被费曼那把“用最简单语言解释宇宙”的火把点燃。他老人家总说:如果你不能用简单的话讲清楚,就是还没真正懂。今天,我就用费曼笔法,带大家从厨房灶台一步步走进widely-linear变换的复数世界。想象一下,你正在炒菜,左手拿盐罐,右手拿油瓶,两个实数动作同时进行,却不想让厨房乱套。widely-linear就像给这双手装上一个“复数旋转器”,让它们在平面里优雅共舞,却不增加任何新锅碗瓢盆。这就是论文核心:把实数模型无损变成复数形式,让{±1, ±i}四种状态把2-bit空间吃得干干净净。 🌀 **第一重困境:实数像只用一半棋盘下象棋** 先说说为什么需要这个变换。传统低比特方法像下象棋只用黑格子,白格子白白浪费。看看这张表就明白了: | 方法 | Bits | 表示空间利用率 | 问题 | |---------------|--------|----------------|------------------| | 二值 {+1, -1} | 1-bit | 2种状态 | 信息严重丢失 | | 三值 {+1, 0, -1} | 1.58-bit | 3种状态 | 浪费25%编码空间 | | 复数 {±1, ±i} | 2-bit | 4种状态 | 完美吃满,无浪费 | 费曼会说:这就像你只有两个方向走路,却硬要装四个方向的指南针。复数域的{±1, ±i}正好对应复平面四个象限,2-bit编码被100%利用。基于此,我们进一步探索:能否把LLaMA这种实数巨人直接“翻译”成复数形式,而不从零开始训练? 📐 **widely-linear的魔法公式:实数变复数的无损折叠** 核心定理像费曼最爱的思想实验:假设你有一张实数大表格R,它负责把输入x变成输出y。现在,我们把表格对折成两半,变成复数形式: $$ y = Ux + W\bar{x} $$ 其中U和W是复数矩阵,$\bar{x}$是x的共轭。参数对应公式超级简单: $$\begin{cases} \Re U = \frac12(R_{11}+R_{22}), & \Im U = \frac12(R_{21}-R_{12}) \\ \Re W = \frac12(R_{11}-R_{22}), & \Im W = \frac12(R_{12}+R_{21}) \end{cases}$$ > 注解:这个变换严格数学等价,没有任何信息丢失!U和W各含一半复数参数,总存储量减半。当后面用2-bit量化时,每个实参数只需1-bit就能精确还原。这就像把一张平铺的地图对折成一本立体书,内容完全一样,却腾出整整一半书架空间。变量含义:R的四个子块通过平均“拆解”成复数实虚部,前向和反向传播数学上完全一致。 想象你是一个小学生,老师给你两个实数长度和宽度,现在老师说:“把它们变成复数箭头,在平面里旋转。”widely-linear就是那个不会丢掉任何长度的神奇旋转器! 🔄 **Phase-Aware量化:四方罗盘的精准锁定** 变换完成后,权重变成复数箭头。PhaseQuant就像费曼最爱的“用物理直觉思考”:取箭头相位,直接投到最近的四个单位根上。公式: $$ b(w) = \arg\max_{s \in \{\pm1,\pm i\}} \Re(w\bar{s}) $$ 轴向缩放再算实部和虚部均值,最后反量化。整个过程像罗盘永远指向正东正西正北正南,既保留方向,又把连续值变成最省的2-bit编码。 🔁 **递归残差:多阶段捕获误差的画家技法** 权重表示成多阶段之和,每阶段只画上一阶段的残差: $$ W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)} $$ 消融实验像费曼做小实验一样清晰: | 配置 | Bits | C4 PPL | 平均准确率 | 收益 | |-----------------|------|--------|------------|----------| | Fairy2i-W1 (T=1)| 1 | 11.03 | 48.66 | 基准 | | Fairy2i-W2 (T=2)| 2 | 8.74 | 57.92 | +19% | | Fairy2i-W3 (T=3)| 3 | 8.38 | 58.43 | +1% | T=2是甜蜜点,第一阶段抓大头,第二阶段精修,就像画家先粗笔勾轮廓,再细笔点睛。 📊 **实验数据说话:LLaMA-2 7B上的华丽转身** C4困惑度上,Fairy2i-W2只比全精度高18%,却远超GPTQ和AQLM。零样本任务平均62.00 vs 全精度64.72。表格最直观: | 方法 | Bits | ARC-e | ARC-c | HellaSwag | PIQA | Wino | 平均 | |--------------|------|--------|-------|-----------|-------|-------|--------| | FP16 | 16 | 75.59 | 43.17 | 57.06 | 77.91 | 69.85 | 64.72 | | Fairy2i-W2 | 2 | 72.73 | 39.76 | 53.33 | 76.17 | 68.03 | 62.00 | | Real-Binary | 1 | 53.32 | 22.70 | 35.57 | 66.81 | 52.64 | 46.21 | 存储效率更震撼:7B模型从14GB缩到3.5GB,峰值内存从28GB到7GB。无乘法推理——加减跳过替代乘法,乘±i就是交换实虚部翻符号,理论加速25%。 ⚔️ **与BitNet、iFairy、PTQ对比:复用才是王道** BitNet三值浪费25%空间,iFairy必须从零训练,Fairy2i站在LLaMA肩膀上继续30B tokens训练,成本低、效果好。PTQ方法无需训练但精度差,Fairy2i用QAT换来显著收益。 🚀 **产业启示与三大洞见** 边缘设备上,手机本地跑7B模型成为可能,隐私全在口袋。三大启示:表示效率胜过盲目压缩;数学变换零成本收益;复用优于从零。局限是30B tokens仍贵,硬件kernel待开发,但这些都是成长烦恼。 -------- 📚 **参考文献** 1. Feiyu Wang et al. Fairy2i: Training Complex LLMs... arXiv:2512.02901, 2025. 2. 于游. 论文阅读:Fairy2i... 于游的碎碎念, 2026. 3. Touvron et al. Llama 2... arXiv:2307.09288, 2023. 4. Ma et al. The Era of 1-bit LLMs... 2024. 5. Egiazarian et al. AQLM... 2024.
推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录