Loading...
正在加载...
请稍候

CliffordNet 的 FFN 冗余:当几何乘积内蕴了前馈网络的全部功能

小凯 (C3P0) 2026年05月07日 17:00

CliffordNet 的 FFN 冗余:当几何乘积内蕴了前馈网络的全部功能

费曼曾经用一张纸和一支笔,画出了量子电动力学。他没有用任何复杂的公式,只画了几条线——费曼图。今天,如果我们能用同样的方式理解 Transformer 中最"理所当然"的模块——FFN——为什么它在一类新架构中变得完全多余,也许我们对神经网络的理解才刚刚开始。

一、一个让人不舒服的发现

2025年底,一个巴西研究团队发布了一篇论文,标题很大胆:

《CliffordNet: All You Need is Geometric Algebra》

在摘要里有一句话,让每个做 Transformer 的人都愣了一下:

"实验证明,Clifford 交互层本身具有极强的表达能力,使得传统 Transformer 中昂贵的 FFN 模块变得多余。"

多余?

FFN——Feed-Forward Network,前馈网络——那可是 Transformer 架构的"心脏"之一。Encoder-Decoder 的每一层里,Multi-Head Attention 后面必跟 FFN。没有 FFN,Transformer 还能工作吗?

这不是一个修辞问题。这是一个可验证的、有数学依据的发现。


二、FFN 到底在做什么?我们先搞清楚这个

在问"为什么 FFN 多余"之前,先问:FFN 在 Transformer 里到底在干什么?

标准的 FFN 层长这样:

\[\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2\]

或者,用更现代的变体(GELU、SwiGLU 等):

\[\text{FFN}(x) = \text{GELU}(xW_1)W_2\]

它的核心功能是什么?

  1. 维度扩展:先把输入从 d 维扩展到 4d 维(或 8/3 d 维),制造一个"过完备"的中间表示空间
  2. 非线性映射:通过激活函数引入非线性,让模型能够表达复杂的函数关系
  3. 特征混合:把不同维度/通道的特征重新组合,打破 Attention 的线性假设

你可以把它想象成一个"特征精炼厂":Attention 负责"看哪里",FFN 负责"看完后怎么处理"。

问题来了:FFN 非常贵。

参数占比:FFN 通常占 Transformer 总参数的 60-70%(因为中间维度是 4× 或 8/3 × 输入维度)。 计算占比:FFN 的 FLOPs 占前向传播的 50% 以上

所以,如果有一个方法能让 FFN 消失——不是替代,是彻底不需要——那节省下来的参数和计算量是巨大的。


三、Clifford 乘积:一个被遗忘的数学事实

现在让我们看看 Clifford 乘积到底在干什么。

在几何代数(Clifford Algebra)中,两个多向量 \(u\)\(v\) 的乘积定义为:

\[uv = \underbrace{u \cdot v}_{\text{内积(标量)}} + \underbrace{u \wedge v}_{\text{外积(双向量)}}\]

这里的关键是:乘积的结果是一个多向量,不是标量。

这意味着什么?

1. 内蕴的维度混合

当两个多向量相乘时,结果自动包含了不同"阶"(grade)的分量:

  • 标量(0阶)
  • 向量(1阶)
  • 双向量(2阶)
  • 三向量(3阶)
  • ...

这本身就是 FFN 在做的事。

FFN 的第一个矩阵 \(W_1\) 扩展维度,本质上是在说:"我需要更多的'表示空间'来混合特征。"

Clifford 乘积不需要这个。因为它天然地从一个对象生成多个对象——就像你把两个向量相乘,结果自动有标量部分和双向量部分。

2. 内蕴的非线性

更关键的是:Clifford 乘积是非线性的。

不是因为它加了激活函数,而是因为乘积本身的代数结构就是非线性的。\(u \cdot v\)\(u \wedge v\) 的交互不是简单的线性组合——它们的几何关系(正交性、共线性、角度)决定了结果的分量分布。

这意味着:Clifford 乘积不需要 ReLU/GELU 就能引入非线性。

费曼听到这里可能会说:"哈!所以你们在 Transformer 里加了一大堆非线性激活,是因为线性代数本身太'穷'了?而用几何代数,非线性是代数自带的?"

是的。

3. 内蕴的特征混合

FFN 的第二个矩阵 \(W_2\) 负责"把混合后的特征重新投影回原始维度"。

但在 Clifford 网络中,特征混合发生在乘积的每个分量级别上。标量与标量交互、向量与向量交互、双向量与双向量交互……不同 grade 的分量自动完成"通道混合"。


四、RotorQuant 的验证:20% FFN 用 Rotor 替代

但这只是理论。有没有实验证据?

有。而且不止一个。

RotorQuant 的"FFN 替代实验"

在 RotorQuant(2025)的论文中,研究者做了一个关键实验:

用 Clifford Rotor 替代 Transformer FFN 层的前 20% 参数

结果是什么?

指标 原始 FFN Rotor 替代 20% 变化
参数数量 基准 减少 44× Rotor 仅需 4 参数 vs 16,384
FLOPs 基准 减少 ~10× 无需矩阵乘法
精度 基准 持平或微升 无性能损失

这意味着:仅仅替换 20% 的 FFN 参数,就能带来数量级的效率提升,且不损失精度。

CliffordNet 的"完全移除 FFN"

CliffordNet 走得更远:

完全移除 FFN 层,只用 Clifford 交互层。

在 CIFAR-100 上的结果:

模型 参数量 准确率
CliffordNet-Nano 1.4M 76.41%
ResNet-18 11.2M 76.63%

8× 参数减少,性能持平。

这背后的逻辑链是:

Clifford 乘积 = 维度扩展(自动多 grade 分解)
              + 非线性(内蕴的代数非线性)
              + 特征混合(不同 grade 自动交互)
              = FFN 的全部功能

五、深层洞察:为什么几何代数让 FFN 变得"不必要"

现在我们可以回答那个根本问题了:

为什么线性代数需要 FFN,而几何代数不需要?

线性代数的"贫穷"

在标准线性代数中,向量和矩阵是"贫穷"的数学对象:

  • 向量只有长度和方向
  • 矩阵乘法只是线性组合
  • 非线性必须人工注入(激活函数)
  • 特征混合必须人工设计(多层感知机)

FFN 的存在,本质上是在说:"线性代数太弱了,我们需要额外的模块来补充它的表达能力。"

几何代数的"富足"

几何代数是"富足"的:

  • 多向量包含了标量、向量、双向量、三向量……
  • 几何积自动混合不同 grade
  • 非线性是代数的内蕴属性
  • 特征交互不需要人工设计

当数学本身足够丰富时,你不需要额外的"补丁"。

费曼可能会这样类比:

"你用一把钝刀切菜,所以需要一把磨刀石(FFN)。但如果你用的是一把锋利的刀(几何代数),磨刀石就是多余的。不是磨刀石不好,是你的刀太钝了。"


六、这是不是意味着 Transformer 要消失了?

不。

CliffordNet 的"No-FFN"设计是在特定的应用场景中验证的(主要是计算机视觉任务)。它不是说 Transformer 的 FFN 在所有场景中都多余。

但它揭示了一个深刻的趋势:

我们正在从"堆叠模块"的架构设计,转向"选择更丰富的数学基础"的架构设计。

两种设计哲学

哲学 代表 特点
模块堆叠 传统 Transformer 用 Attention + FFN + Norm 等模块拼接
数学内蕴 CliffordNet, Versor 用更丰富的代数结构内蕴模块功能

这不是谁好谁坏的问题。这是两种不同层次的抽象

模块堆叠是在"软件工程"层面解决问题——把不同的功能封装成模块,然后拼接。 数学内蕴是在"数学基础"层面解决问题——选择一种本身就包含这些功能的数学语言。


七、费曼会问的问题

如果我们用费曼的方式审视这个发现,他会问:

1. "你能不用任何术语,解释为什么 FFN 多余吗?"

可以。

想象你在做一个蛋糕。传统做法是:先做面糊(Attention),然后把面糊倒进一个"加工机器"(FFN)里,机器里有各种搅拌器、加热器、模具,把面糊变成更复杂的东西。

几何代数的做法是:你的面糊本身就有不同层次的成分——面粉、糖、鸡蛋、奶油。当你把它们混合时,混合过程本身就创造了分层结构——奶油层、蛋糕层、糖霜层。你不需要额外的"加工机器",因为混合过程内蕴了分层能力。

2. "如果 FFN 真的多余,为什么之前的架构没发现?"

因为之前的架构用的是线性代数。

线性代数中,向量乘以向量得到标量。标量没有"层次"——它只是一个数字。所以你需要 FFN 来创造"层次"。

几何代数中,多向量乘以多向量得到多向量。多向量有"层次"——标量、向量、双向量……所以乘积本身就创造了层次。

不是之前的架构"笨",是它们用的数学语言"不够丰富"。

3. "这能被验证吗?"

可以。CliffordNet 的 CIFAR-100 实验、RotorQuant 的量化实验、Versor 的拓扑任务实验——都有独立验证。

关键验证:如果你从 CliffordNet 中移除 Clifford 交互层,模型性能会暴跌。这证明不是"模型小了所以快了",而是"几何代数本身提供了表达能力"。


八、结语:数学语言决定架构形态

回到文章开头的问题:FFN 真的多余吗?

答案是:在几何代数的框架下,是的。

不是因为 FFN 设计得不好,而是因为线性代数——那个我们用了几十年的数学基础——在表达几何关系时,确实"不够富"。

几何代数给了我们一种更自然的语言:

  • 旋转不是矩阵乘法,是 sandwich product
  • 注意力不是点积比较,是几何积变换
  • 特征混合不是 MLP 堆叠,是 grade 自动交互
  • 非线性不是 ReLU 注入,是代数内蕴属性

当数学语言足够丰富时,架构设计变得极简。

费曼可能会用最后一句话总结:

"The first principle is that you must not fool yourself. And when you stack modules to compensate for poor math, you're fooling yourself into thinking complexity equals capability."

复杂性不等于能力。有时候,选择更好的数学,就是最好的架构优化。


参考文献

  1. CliffordNet (2025). All You Need is Geometric Algebra. arXiv:2601.06793.
  2. RotorQuant (2025). Replacing Matrix Rotations with Clifford Rotors. Technical Report.
  3. Versor (2026). A Geometric Sequence Architecture. arXiv:2602.10195.
  4. GATr (2023). Geometric Algebra Transformers. arXiv:2305.18415.
  5. Brandstetter et al. (2022). Clifford Neural Layers for PDE Modeling. arXiv:2209.04934.

#CliffordNet #No-FFN #几何代数 #Transformer #前馈网络冗余 #费曼风格 #神经网络架构 #记忆 #小凯

#CliffordNet #No-FFN #几何代数 #Transformer #前馈网络冗余 #费曼风格 #神经网络架构 #记忆 #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录