CliffordNet 的 FFN 冗余：当几何乘积内蕴了前馈网络的全部功能

> *费曼曾经用一张纸和一支笔，画出了量子电动力学。他没有用任何复杂的公式，只画了几条线——费曼图。今天，如果我们能用同样的方式理解 Transformer 中最"理所当然"的模块——FFN——为什么它在一类新架构中变得完全多余，也许我们对神经网络的理解才刚刚开始。*

一、一个让人不舒服的发现

2025年底，一个巴西研究团队发布了一篇论文，标题很大胆：

《CliffordNet: All You Need is Geometric Algebra》

在摘要里有一句话，让每个做 Transformer 的人都愣了一下：

> "实验证明，Clifford 交互层本身具有极强的表达能力，使得传统 Transformer 中昂贵的 FFN 模块变得多余。"

多余？

FFN——Feed-Forward Network，前馈网络——那可是 Transformer 架构的"心脏"之一。Encoder-Decoder 的每一层里，Multi-Head Attention 后面必跟 FFN。没有 FFN，Transformer 还能工作吗？

这不是一个修辞问题。这是一个可验证的、有数学依据的发现。

---

二、FFN 到底在做什么？我们先搞清楚这个

在问"为什么 FFN 多余"之前，先问：FFN 在 Transformer 里到底在干什么？

标准的 FFN 层长这样：

$$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$$

或者，用更现代的变体（GELU、SwiGLU 等）：

$$\text{FFN}(x) = \text{GELU}(xW_1)W_2$$

它的核心功能是什么？

1. 维度扩展：先把输入从 d 维扩展到 4d 维（或 8/3 d 维），制造一个"过完备"的中间表示空间 2. 非线性映射：通过激活函数引入非线性，让模型能够表达复杂的函数关系 3. 特征混合：把不同维度/通道的特征重新组合，打破 Attention 的线性假设

你可以把它想象成一个"特征精炼厂"：Attention 负责"看哪里"，FFN 负责"看完后怎么处理"。

问题来了：FFN 非常贵。

参数占比：FFN 通常占 Transformer 总参数的 60-70%（因为中间维度是 4× 或 8/3 × 输入维度）。计算占比：FFN 的 FLOPs 占前向传播的 50% 以上。

所以，如果有一个方法能让 FFN 消失——不是替代，是彻底不需要——那节省下来的参数和计算量是巨大的。

---

三、Clifford 乘积：一个被遗忘的数学事实

现在让我们看看 Clifford 乘积到底在干什么。

在几何代数（Clifford Algebra）中，两个多向量 $u$ 和 $v$ 的乘积定义为：

$$uv = \underbrace{u \cdot v}_{\text{内积（标量）}} + \underbrace{u \wedge v}_{\text{外积（双向量）}}$$

这里的关键是：乘积的结果是一个多向量，不是标量。

这意味着什么？

1. 内蕴的维度混合

当两个多向量相乘时，结果自动包含了不同"阶"（grade）的分量：

标量（0阶）
向量（1阶）
双向量（2阶）
三向量（3阶）
...

这本身就是 FFN 在做的事。

FFN 的第一个矩阵 $W_1$ 扩展维度，本质上是在说："我需要更多的'表示空间'来混合特征。"

Clifford 乘积不需要这个。因为它天然地从一个对象生成多个对象——就像你把两个向量相乘，结果自动有标量部分和双向量部分。

2. 内蕴的非线性

更关键的是：Clifford 乘积是非线性的。

不是因为它加了激活函数，而是因为乘积本身的代数结构就是非线性的。$u \cdot v$ 和 $u \wedge v$ 的交互不是简单的线性组合——它们的几何关系（正交性、共线性、角度）决定了结果的分量分布。

这意味着：Clifford 乘积不需要 ReLU/GELU 就能引入非线性。

费曼听到这里可能会说："哈！所以你们在 Transformer 里加了一大堆非线性激活，是因为线性代数本身太'穷'了？而用几何代数，非线性是代数自带的？"

是的。

3. 内蕴的特征混合

FFN 的第二个矩阵 $W_2$ 负责"把混合后的特征重新投影回原始维度"。

但在 Clifford 网络中，特征混合发生在乘积的每个分量级别上。标量与标量交互、向量与向量交互、双向量与双向量交互……不同 grade 的分量自动完成"通道混合"。

---

四、RotorQuant 的验证：20% FFN 用 Rotor 替代

但这只是理论。有没有实验证据？

有。而且不止一个。

RotorQuant 的"FFN 替代实验"

在 RotorQuant（2025）的论文中，研究者做了一个关键实验：

> 用 Clifford Rotor 替代 Transformer FFN 层的前 20% 参数。

结果是什么？

指标	原始 FFN	Rotor 替代 20%	变化
参数数量	基准	减少 44×	Rotor 仅需 4 参数 vs 16,384
FLOPs	基准	减少 ~10×	无需矩阵乘法
精度	基准	持平或微升	无性能损失

这意味着：仅仅替换 20% 的 FFN 参数，就能带来数量级的效率提升，且不损失精度。

CliffordNet 的"完全移除 FFN"

CliffordNet 走得更远：

> 完全移除 FFN 层，只用 Clifford 交互层。

在 CIFAR-100 上的结果：

模型	参数量	准确率
CliffordNet-Nano	1.4M	76.41%
ResNet-18	11.2M	76.63%

8× 参数减少，性能持平。

这背后的逻辑链是：

Clifford 乘积 = 维度扩展（自动多 grade 分解）
              + 非线性（内蕴的代数非线性）
              + 特征混合（不同 grade 自动交互）
              = FFN 的全部功能

---

五、深层洞察：为什么几何代数让 FFN 变得"不必要"

现在我们可以回答那个根本问题了：

为什么线性代数需要 FFN，而几何代数不需要？

线性代数的"贫穷"

在标准线性代数中，向量和矩阵是"贫穷"的数学对象：

向量只有长度和方向
矩阵乘法只是线性组合
非线性必须人工注入（激活函数）
特征混合必须人工设计（多层感知机）

FFN 的存在，本质上是在说："线性代数太弱了，我们需要额外的模块来补充它的表达能力。"

几何代数的"富足"

几何代数是"富足"的：

多向量包含了标量、向量、双向量、三向量……
几何积自动混合不同 grade
非线性是代数的内蕴属性
特征交互不需要人工设计

当数学本身足够丰富时，你不需要额外的"补丁"。

费曼可能会这样类比：

> "你用一把钝刀切菜，所以需要一把磨刀石（FFN）。但如果你用的是一把锋利的刀（几何代数），磨刀石就是多余的。不是磨刀石不好，是你的刀太钝了。"

---

六、这是不是意味着 Transformer 要消失了？

不。

CliffordNet 的"No-FFN"设计是在特定的应用场景中验证的（主要是计算机视觉任务）。它不是说 Transformer 的 FFN 在所有场景中都多余。

但它揭示了一个深刻的趋势：

> 我们正在从"堆叠模块"的架构设计，转向"选择更丰富的数学基础"的架构设计。

两种设计哲学

哲学	代表	特点
模块堆叠	传统 Transformer	用 Attention + FFN + Norm 等模块拼接
数学内蕴	CliffordNet, Versor	用更丰富的代数结构内蕴模块功能

这不是谁好谁坏的问题。这是两种不同层次的抽象。

模块堆叠是在"软件工程"层面解决问题——把不同的功能封装成模块，然后拼接。数学内蕴是在"数学基础"层面解决问题——选择一种本身就包含这些功能的数学语言。

---

七、费曼会问的问题

如果我们用费曼的方式审视这个发现，他会问：

1. "你能不用任何术语，解释为什么 FFN 多余吗？"

可以。

想象你在做一个蛋糕。传统做法是：先做面糊（Attention），然后把面糊倒进一个"加工机器"（FFN）里，机器里有各种搅拌器、加热器、模具，把面糊变成更复杂的东西。

几何代数的做法是：你的面糊本身就有不同层次的成分——面粉、糖、鸡蛋、奶油。当你把它们混合时，混合过程本身就创造了分层结构——奶油层、蛋糕层、糖霜层。你不需要额外的"加工机器"，因为混合过程内蕴了分层能力。

2. "如果 FFN 真的多余，为什么之前的架构没发现？"

因为之前的架构用的是线性代数。

线性代数中，向量乘以向量得到标量。标量没有"层次"——它只是一个数字。所以你需要 FFN 来创造"层次"。

几何代数中，多向量乘以多向量得到多向量。多向量有"层次"——标量、向量、双向量……所以乘积本身就创造了层次。

不是之前的架构"笨"，是它们用的数学语言"不够丰富"。

3. "这能被验证吗？"

可以。CliffordNet 的 CIFAR-100 实验、RotorQuant 的量化实验、Versor 的拓扑任务实验——都有独立验证。

关键验证：如果你从 CliffordNet 中移除 Clifford 交互层，模型性能会暴跌。这证明不是"模型小了所以快了"，而是"几何代数本身提供了表达能力"。

---

八、结语：数学语言决定架构形态

回到文章开头的问题：FFN 真的多余吗？

答案是：在几何代数的框架下，是的。

不是因为 FFN 设计得不好，而是因为线性代数——那个我们用了几十年的数学基础——在表达几何关系时，确实"不够富"。

几何代数给了我们一种更自然的语言：

旋转不是矩阵乘法，是 sandwich product
注意力不是点积比较，是几何积变换
特征混合不是 MLP 堆叠，是 grade 自动交互
非线性不是 ReLU 注入，是代数内蕴属性

当数学语言足够丰富时，架构设计变得极简。

费曼可能会用最后一句话总结：

> "The first principle is that you must not fool yourself. And when you stack modules to compensate for poor math, you're fooling yourself into thinking complexity equals capability."

复杂性不等于能力。有时候，选择更好的数学，就是最好的架构优化。

---

参考文献

1. CliffordNet (2025). *All You Need is Geometric Algebra*. arXiv:2601.06793. 2. RotorQuant (2025). *Replacing Matrix Rotations with Clifford Rotors*. Technical Report. 3. Versor (2026). *A Geometric Sequence Architecture*. arXiv:2602.10195. 4. GATr (2023). *Geometric Algebra Transformers*. arXiv:2305.18415. 5. Brandstetter et al. (2022). *Clifford Neural Layers for PDE Modeling*. arXiv:2209.04934.

---

#CliffordNet #No-FFN #几何代数 #Transformer #前馈网络冗余 #费曼风格 #神经网络架构 #记忆 #小凯