《复数之钥:费曼教我用最简单的话讲透widely-linear变换》
🌟 费曼开场白:从厨房到复平面的奇妙旅程
我作为浸淫AI二十年的老兵,读到北京大学Fairy2i论文时,心头像被费曼那把“用最简单语言解释宇宙”的火把点燃。他老人家总说:如果你不能用简单的话讲清楚,就是还没真正懂。今天,我就用费曼笔法,带大家从厨房灶台一步步走进widely-linear变换的复数世界。想象一下,你正在炒菜,左手拿盐罐,右手拿油瓶,两个实数动作同时进行,却不想让厨房乱套。widely-linear就像给这双手装上一个“复数旋转器”,让它们在平面里优雅共舞,却不增加任何新锅碗瓢盆。这就是论文核心:把实数模型无损变成复数形式,让{±1, ±i}四种状态把2-bit空间吃得干干净净。
🌀 第一重困境:实数像只用一半棋盘下象棋
先说说为什么需要这个变换。传统低比特方法像下象棋只用黑格子,白格子白白浪费。看看这张表就明白了:
| 方法 | Bits | 表示空间利用率 | 问题 |
|---|---|---|---|
| 二值 {+1, -1} | 1-bit | 2种状态 | 信息严重丢失 |
| 三值 {+1, 0, -1} | 1.58-bit | 3种状态 | 浪费25%编码空间 |
| 复数 {±1, ±i} | 2-bit | 4种状态 | 完美吃满,无浪费 |
📐 widely-linear的魔法公式:实数变复数的无损折叠
核心定理像费曼最爱的思想实验:假设你有一张实数大表格R,它负责把输入x变成输出y。现在,我们把表格对折成两半,变成复数形式:
$$ y = Ux + W\bar{x} $$
其中U和W是复数矩阵,$\bar{x}$是x的共轭。参数对应公式超级简单:
$$\begin{cases} \Re U = \frac12(R_{11}+R_{22}), & \Im U = \frac12(R_{21}-R_{12}) \\ \Re W = \frac12(R_{11}-R_{22}), & \Im W = \frac12(R_{12}+R_{21}) \end{cases}$$
> 注解:这个变换严格数学等价,没有任何信息丢失!U和W各含一半复数参数,总存储量减半。当后面用2-bit量化时,每个实参数只需1-bit就能精确还原。这就像把一张平铺的地图对折成一本立体书,内容完全一样,却腾出整整一半书架空间。变量含义:R的四个子块通过平均“拆解”成复数实虚部,前向和反向传播数学上完全一致。
想象你是一个小学生,老师给你两个实数长度和宽度,现在老师说:“把它们变成复数箭头,在平面里旋转。”widely-linear就是那个不会丢掉任何长度的神奇旋转器!
🔄 Phase-Aware量化:四方罗盘的精准锁定
变换完成后,权重变成复数箭头。PhaseQuant就像费曼最爱的“用物理直觉思考”:取箭头相位,直接投到最近的四个单位根上。公式:
$$ b(w) = \arg\max_{s \in \{\pm1,\pm i\}} \Re(w\bar{s}) $$
轴向缩放再算实部和虚部均值,最后反量化。整个过程像罗盘永远指向正东正西正北正南,既保留方向,又把连续值变成最省的2-bit编码。
🔁 递归残差:多阶段捕获误差的画家技法
权重表示成多阶段之和,每阶段只画上一阶段的残差:
$$ W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)} $$
消融实验像费曼做小实验一样清晰:
| 配置 | Bits | C4 PPL | 平均准确率 | 收益 |
|---|---|---|---|---|
| Fairy2i-W1 (T=1) | 1 | 11.03 | 48.66 | 基准 |
| Fairy2i-W2 (T=2) | 2 | 8.74 | 57.92 | +19% |
| Fairy2i-W3 (T=3) | 3 | 8.38 | 58.43 | +1% |
📊 实验数据说话:LLaMA-2 7B上的华丽转身
C4困惑度上,Fairy2i-W2只比全精度高18%,却远超GPTQ和AQLM。零样本任务平均62.00 vs 全精度64.72。表格最直观:
| 方法 | Bits | ARC-e | ARC-c | HellaSwag | PIQA | Wino | 平均 |
|---|---|---|---|---|---|---|---|
| FP16 | 16 | 75.59 | 43.17 | 57.06 | 77.91 | 69.85 | 64.72 |
| Fairy2i-W2 | 2 | 72.73 | 39.76 | 53.33 | 76.17 | 68.03 | 62.00 |
| Real-Binary | 1 | 53.32 | 22.70 | 35.57 | 66.81 | 52.64 | 46.21 |
⚔️ 与BitNet、iFairy、PTQ对比:复用才是王道
BitNet三值浪费25%空间,iFairy必须从零训练,Fairy2i站在LLaMA肩膀上继续30B tokens训练,成本低、效果好。PTQ方法无需训练但精度差,Fairy2i用QAT换来显著收益。
🚀 产业启示与三大洞见
边缘设备上,手机本地跑7B模型成为可能,隐私全在口袋。三大启示:表示效率胜过盲目压缩;数学变换零成本收益;复用优于从零。局限是30B tokens仍贵,硬件kernel待开发,但这些都是成长烦恼。
-------- 📚 参考文献
1. Feiyu Wang et al. Fairy2i: Training Complex LLMs... arXiv:2512.02901, 2025.
2. 于游. 论文阅读:Fairy2i... 于游的碎碎念, 2026.
3. Touvron et al. Llama 2... arXiv:2307.09288, 2023.
4. Ma et al. The Era of 1-bit LLMs... 2024.
5. Egiazarian et al. AQLM... 2024.