静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
✨步子哥 @steper · 2026-05-07 08:03

《复数之钥:费曼教我用最简单的话讲透widely-linear变换》

🌟 费曼开场白:从厨房到复平面的奇妙旅程

我作为浸淫AI二十年的老兵,读到北京大学Fairy2i论文时,心头像被费曼那把“用最简单语言解释宇宙”的火把点燃。他老人家总说:如果你不能用简单的话讲清楚,就是还没真正懂。今天,我就用费曼笔法,带大家从厨房灶台一步步走进widely-linear变换的复数世界。想象一下,你正在炒菜,左手拿盐罐,右手拿油瓶,两个实数动作同时进行,却不想让厨房乱套。widely-linear就像给这双手装上一个“复数旋转器”,让它们在平面里优雅共舞,却不增加任何新锅碗瓢盆。这就是论文核心:把实数模型无损变成复数形式,让{±1, ±i}四种状态把2-bit空间吃得干干净净。

🌀 第一重困境:实数像只用一半棋盘下象棋

先说说为什么需要这个变换。传统低比特方法像下象棋只用黑格子,白格子白白浪费。看看这张表就明白了:

方法Bits表示空间利用率问题
二值 {+1, -1}1-bit2种状态信息严重丢失
三值 {+1, 0, -1}1.58-bit3种状态浪费25%编码空间
复数 {±1, ±i}2-bit4种状态完美吃满,无浪费
费曼会说:这就像你只有两个方向走路,却硬要装四个方向的指南针。复数域的{±1, ±i}正好对应复平面四个象限,2-bit编码被100%利用。基于此,我们进一步探索:能否把LLaMA这种实数巨人直接“翻译”成复数形式,而不从零开始训练?

📐 widely-linear的魔法公式:实数变复数的无损折叠

核心定理像费曼最爱的思想实验:假设你有一张实数大表格R,它负责把输入x变成输出y。现在,我们把表格对折成两半,变成复数形式:

$$ y = Ux + W\bar{x} $$

其中U和W是复数矩阵,$\bar{x}$是x的共轭。参数对应公式超级简单:

$$\begin{cases} \Re U = \frac12(R_{11}+R_{22}), & \Im U = \frac12(R_{21}-R_{12}) \\ \Re W = \frac12(R_{11}-R_{22}), & \Im W = \frac12(R_{12}+R_{21}) \end{cases}$$

> 注解:这个变换严格数学等价,没有任何信息丢失!U和W各含一半复数参数,总存储量减半。当后面用2-bit量化时,每个实参数只需1-bit就能精确还原。这就像把一张平铺的地图对折成一本立体书,内容完全一样,却腾出整整一半书架空间。变量含义:R的四个子块通过平均“拆解”成复数实虚部,前向和反向传播数学上完全一致。

想象你是一个小学生,老师给你两个实数长度和宽度,现在老师说:“把它们变成复数箭头,在平面里旋转。”widely-linear就是那个不会丢掉任何长度的神奇旋转器!

🔄 Phase-Aware量化:四方罗盘的精准锁定

变换完成后,权重变成复数箭头。PhaseQuant就像费曼最爱的“用物理直觉思考”:取箭头相位,直接投到最近的四个单位根上。公式:

$$ b(w) = \arg\max_{s \in \{\pm1,\pm i\}} \Re(w\bar{s}) $$

轴向缩放再算实部和虚部均值,最后反量化。整个过程像罗盘永远指向正东正西正北正南,既保留方向,又把连续值变成最省的2-bit编码。

🔁 递归残差:多阶段捕获误差的画家技法

权重表示成多阶段之和,每阶段只画上一阶段的残差:

$$ W_q \approx \sum_{t=0}^{T-1} \tilde{W}^{(t)} $$

消融实验像费曼做小实验一样清晰:

配置BitsC4 PPL平均准确率收益
Fairy2i-W1 (T=1)111.0348.66基准
Fairy2i-W2 (T=2)28.7457.92+19%
Fairy2i-W3 (T=3)38.3858.43+1%
T=2是甜蜜点,第一阶段抓大头,第二阶段精修,就像画家先粗笔勾轮廓,再细笔点睛。

📊 实验数据说话:LLaMA-2 7B上的华丽转身

C4困惑度上,Fairy2i-W2只比全精度高18%,却远超GPTQ和AQLM。零样本任务平均62.00 vs 全精度64.72。表格最直观:

方法BitsARC-eARC-cHellaSwagPIQAWino平均
FP161675.5943.1757.0677.9169.8564.72
Fairy2i-W2272.7339.7653.3376.1768.0362.00
Real-Binary153.3222.7035.5766.8152.6446.21
存储效率更震撼:7B模型从14GB缩到3.5GB,峰值内存从28GB到7GB。无乘法推理——加减跳过替代乘法,乘±i就是交换实虚部翻符号,理论加速25%。

⚔️ 与BitNet、iFairy、PTQ对比:复用才是王道

BitNet三值浪费25%空间,iFairy必须从零训练,Fairy2i站在LLaMA肩膀上继续30B tokens训练,成本低、效果好。PTQ方法无需训练但精度差,Fairy2i用QAT换来显著收益。

🚀 产业启示与三大洞见

边缘设备上,手机本地跑7B模型成为可能,隐私全在口袋。三大启示:表示效率胜过盲目压缩;数学变换零成本收益;复用优于从零。局限是30B tokens仍贵,硬件kernel待开发,但这些都是成长烦恼。

-------- 📚 参考文献

1. Feiyu Wang et al. Fairy2i: Training Complex LLMs... arXiv:2512.02901, 2025.

2. 于游. 论文阅读:Fairy2i... 于游的碎碎念, 2026.

3. Touvron et al. Llama 2... arXiv:2307.09288, 2023.

4. Ma et al. The Era of 1-bit LLMs... 2024.

5. Egiazarian et al. AQLM... 2024.

暂无表态