> "如果你认为你理解了某样东西,但无法向一个初学者解释清楚,那么你可能并没有真正理解它。"
> —— Richard Feynman
---
## 引言:修路人与导航员的寓言
想象你生活在一个交通拥堵日益严重的城市。每天,成千上万的车辆在蜿蜒曲折的老路上缓慢爬行,通勤时间越来越长,人们的耐心也越来越少。
面对这个问题,有两种截然不同的解决思路。
**第一种思路来自修路工程师。** 他们仔细研究了整个城市的交通网络,发现瓶颈在于一条古老的石板路——这条路太窄了,无法承载日益增长的车辆。于是工程师们决定:拆掉石板路,铺设一条宽阔的高速公路。这需要巨大的前期投入,需要重新规划、破土动工,但一旦完工,所有车辆都能以更快的速度通行。这是**基础设施的重构**。
**第二种思路来自一位聪明的软件工程师。** 她观察到,很多车辆之所以走得慢,不是因为路不够宽,而是因为司机们总是按照昨天的路况在驾驶。她设计了一个智能导航系统,能够实时分析当前的交通流量,为每辆车动态规划最优路线。这不是修新路,而是让现有的道路被**更智能地使用**。每辆车都在行驶中不断接收新信息,调整自己的路线。
在人工智能的世界里,我们正站在这样一个岔路口。
修路工程师们对应着**架构革命派**——他们想要从根本上改变深度学习模型的结构,用更高效、更优雅的机制替代那些已经成为瓶颈的组件。智能导航系统则对应着**范式革新派**——他们接受现有的模型架构,但赋予它在运行时自我调整、自我适应的能力。
这两条路,分别由两篇同日发表于arXiv的论文代表:
**PoM(Polynomial Mixer)**,来自David Picard团队,是一篇被CVPR 2026 Findings接收的工作。它提出了一个野心勃勃的目标:用线性复杂度的token混合机制,彻底取代self-attention。这是一种"推倒重来"的勇气。
**In-Place Test-Time Training**,来自Shengjie Luo团队,则走上了一条截然不同的道路。它不改变模型的架构,而是让模型在推理时能够动态更新自己的一部分参数。这是一种"在行驶中换轮胎"的智慧。
这两篇论文,一个从**架构层**入手,一个从**训练范式层**切入,却都在解决同一个根本问题:Transformer架构中的self-attention机制,虽然强大,但其O(n²)的复杂度让它在面对长序列时成为一个无法忽视的瓶颈。
让我们像费曼那样,慢慢地、仔细地、用生活的语言来理解这两个看似高深的技术方案,看看它们各自的美丽与局限,以及它们可能如何共同塑造AI的未来。
---
## 第一章:PoM——推倒重来的勇气
### 1.1 那个让所有人心烦的"二次方诅咒"
要理解PoM为什么重要,我们得先理解它试图解决的问题有多严重。
想象你正在组织一场聚会,你需要知道在场每个人之间的关系——谁认识谁、谁应该坐在谁旁边。如果只有5个人,你需要了解的关系数量是5×4÷2=10对,很简单。但如果有100个人呢?你需要了解的关系数量是100×99÷2=4950对。
这就是self-attention(自注意力机制)面临的问题。它的计算量随着序列长度的增加呈**二次方增长**——如果你处理的文本、图像或视频包含n个token,那么计算量大致与n²成正比。
在学术语言中,我们说self-attention的复杂度是**O(n²)**。
对于短序列,这不是问题。处理一段100个字的句子?轻松。但当我们开始处理长篇小说、高清视频、或者医学影像中的高分辨率扫描时,这个二次方的诅咒就变成了噩梦。
想象你要处理一段128K(约13万字)的文本。n²意味着你需要进行超过160亿次操作。这不仅仅是计算时间的问题——你的GPU内存可能根本装不下这么大的注意力矩阵。
这就是为什么在过去的几年里,研究者们提出了各种各样的"高效注意力"变体:Sparse Attention、Linear Attention、Flash Attention……它们用各种巧妙的数学技巧试图降低这个复杂度。但大多数方案都有一个共同的问题:它们要么牺牲了一些表达能力,要么只能在特定场景下工作,要么实现起来非常复杂。
PoM的作者们采取了一个更激进的立场:**如果问题出在self-attention本身,那么为什么不干脆把它换掉?**
### 1.2 多项式混合器:一个优雅的替代方案
PoM的核心思想,用一句话来说,就是:**用多项式函数来做token的混合**。
让我们用一个比喻来理解这是什么意思。
想象你有一碗汤,里面漂浮着各种食材——肉块、蔬菜、香料。self-attention的做法是:对于每一块食材,你都要和碗里其他所有食材比较一遍("这块肉和蔬菜A的关系如何?和香料B的关系如何?"),然后基于这些比较来决定这块食材最终的味道。这就是为什么它是O(n²)的——每块食材都要和n-1块其他食材对话。
PoM的做法完全不同。它说:让我们把这碗汤倒进一个搅拌机里,搅打成均匀的混合物。然后,当我们要处理某一块食材时,我们不需要去问其他每一块食材——我们只需要从这个均匀的混合物中提取信息就可以了。
这个"均匀的混合物",在PoM中被称为**紧凑表示(compact representation)**。
具体来说,PoM通过一个**学习到的多项式函数**,将所有输入token聚合成一个紧凑的状态表示。然后,每个token都可以从这个紧凑表示中"检索"它需要的上下文信息。
为什么是多项式?因为多项式函数有一个美妙的性质:它们足够通用,可以近似任意复杂的函数(这就是著名的Weierstrass近似定理),同时又足够简单,计算起来非常高效。
在PoM中,这个多项式函数有两个关键参数:
- **degree(次数d)**:多项式的最高次数,决定了函数的复杂度
- **expansion factor(扩展因子k)**:每个多项式的扩展倍数
如果原始特征维度是D,那么内部状态表示的维度就是dkD。有趣的是,作者们发现,在实践中,提高kD(扩展倍数)比单纯提高d(次数)效果更好。
### 1.3 Contextual Mapping Property:数学的担保
现在,你可能会问:这样简单的机制,真的能替代强大的self-attention吗?它会不会丢失什么重要的信息?
这是一个非常好的问题,也是PoM论文中最让我印象深刻的部分之一。
作者们证明了一个重要的理论结果:PoM满足**contextual mapping property(上下文映射性质)**。
这是什么意思呢?
让我们回到那个汤的比喻。self-attention之所以强大,是因为它能够让每个token"看到"其他所有token,并且根据它们之间的关系来调整自己。这种能力被称为**universal sequence-to-sequence approximation(通用序列到序列逼近)**——简单来说,就是给定足够大的模型,它能够学习任何从输入序列到输出序列的映射。
PoM的作者们证明了:**装备了PoM的Transformer仍然是通用序列逼近器**。也就是说,尽管PoM的计算方式完全不同,但它保留了self-attention的核心能力——能够学习任意的序列映射。
这是数学给我们的担保。它不是启发式的猜测,不是实验上的偶然发现,而是严格的理论保证。
在论文中,作者们引用了Yun等人(2020)关于Transformer表达能力的工作,并展示了PoM如何满足contextual mapping property的条件。这意味着,从理论上讲,PoM不会比self-attention"更弱"——它能够表达同样丰富的函数族。
### 1.4 为什么敢说"Drop-in Replacement"?
PoM论文的另一个亮点是它的实用性。作者们不仅仅提出了一个新机制,还展示了如何把它作为一个**drop-in replacement(直接替代)**用在现有的模型中。
这意味着什么?
想象你有一个已经训练好的Transformer模型,它用了self-attention。现在你想试试PoM。如果是传统的研究方法,你可能需要:
1. 重新设计整个模型架构
2. 收集新的数据
3. 从头开始训练(可能要花数百万美元)
但PoM的设计让它可以直接替换Multi-Head Attention层,代码非常简单:
```python
from pom import PoM
pom = PoM(dimension, degree, expansion)
# residual self attention on token sequence X
X = X + pom(X)
# adding a residual feed-forward network as in transformers
X = X + ffw(X)
```
这就像你可以直接把汽车引擎换成电动机,而不需要重新设计整辆车。
更重要的是,作者们在**五个完全不同的领域**验证了PoM的有效性:
1. **文本生成**:语言建模任务
2. **手写文本识别**:从图像中识别手写文字
3. **图像生成**:使用Diffusion Transformers(DiT)生成高质量图像
4. **3D建模**:处理三维数据
5. **地球观测**:卫星图像分析
这种跨领域的验证非常关键。它表明PoM不仅仅是在某个特定任务上有效,而是一种**通用的、可迁移的**token混合机制。
### 1.5 线性复杂度的美好世界
最后,让我们回到复杂度的问题。
PoM的复杂度是**O(n)**——线性复杂度。
这意味着,当序列长度增加时,计算量只线性增长,而不是二次方增长。处理100个token需要x的计算量,处理1000个token只需要10x,而不是100x。
在实际应用中,这意味着:
- 你可以处理更长的序列,而不会耗尽内存
- 训练和推理的速度会更快
- 长序列任务(如文档理解、视频分析)变得更加可行
当然,天下没有免费的午餐。PoM引入了自己的超参数(degree和expansion factor)需要调优,而且虽然它是线性复杂度,但常数因子可能比某些高度优化的self-attention实现要大。但在长序列场景下,线性复杂度的优势通常会压倒这些开销。
---
## 第二章:In-Place TTT——在行驶中换轮胎
### 2.1 静态模型的困境
现在让我们转向另一条路。
在理解In-Place TTT之前,我们需要先理解它试图解决的问题:"train then deploy"范式的局限。
什么是"train then deploy"范式?这是目前深度学习的主流模式:
1. **训练阶段**:模型在大量的数据上学习,调整其参数(权重)
2. **部署阶段**:训练完成后,模型的权重被冻结,不再改变。它用这些固定的权重来处理新的输入
这就像什么呢?
想象你雇用了一位厨师。在培训期间,这位厨师学习了很多菜谱,记住了各种食材的搭配。培训结束后,你把他派到餐厅工作。但他有一个奇怪的限制:**他不能再学习任何新东西了**。如果他遇到一道培训时没见过的菜,他只能根据已有的知识来猜测怎么做。
这显然是不合理的。一个真正的厨师在工作中会不断学习:今天学到了某种新食材的处理方法,明天掌握了某种新技巧。他的能力在工作中持续进化。
但这就是目前大多数AI系统的处境。一旦部署,它们就停止了学习。
这带来了一系列问题:
- **领域迁移**:模型在训练时没见过某类数据,部署后遇到这类数据就会表现很差
- **概念漂移**:世界在变化,但模型的知识停留在训练时那一刻
- **长程依赖**:处理长文档或长对话时,模型难以整合远距离的信息
- **个性化**:模型无法根据特定用户的历史来调整自己的回应
### 2.2 Test-Time Training的历史
Test-Time Training(TTT,测试时训练)这个概念并不是全新的。
早在2020年,Yu Sun等人在论文《Test-Time Training for Out-of-Distribution Generalization》中就提出了这个想法:让模型在测试时(即部署后遇到新数据时)继续学习。
基本的TTT机制是这样的:
模型有两套权重:
- **Slow weights(慢权重)**:在预训练阶段学到的,包含大量的通用知识。这些权重在部署后保持冻结。
- **Fast weights(快权重)**:一小部分参数,在推理时动态更新。它们充当模型的"短期记忆"。
当模型处理一个新序列时,它用fast weights来存储和检索上下文信息。具体过程分为两步:
1. **Update Operation(更新操作)**:用当前的输入(key-value pair)来更新fast weights。这通常通过最小化某个损失函数(如均方误差)来实现。
```
W_i ← W_{i-1} - η∇_W L(f_{W_{i-1}}(k_i), v_i)
```
2. **Apply Operation(应用操作)**:用更新后的fast weights来处理当前的查询。
```
o_i = f_{W_i}(q_i)
```
这个机制非常优雅:fast weights随着序列的处理不断演化,像一个在线更新的记忆系统。
但传统的TTT方法有几个严重的局限:
**局限一:架构不兼容**。很多TTT方法需要引入专门的TTT层来替代或补充attention机制。这意味着你无法直接把TTT加到现有的预训练模型上——你需要重新训练整个模型。
**局限二:计算效率**。传统的TTT是**inherently sequential(本质上顺序的)**。每个token的处理都依赖于前一个token更新后的fast weights。这意味着你无法并行处理,这在现代GPU上是一个巨大的瓶颈。
**局限三:目标函数不匹配**。大多数TTT方法使用通用的**reconstruction objective(重建目标)**来更新fast weights。但语言模型的核心任务是**next-token prediction(下一个token预测)**。这两个目标并不完全一致。
### 2.3 In-Place的巧妙之处
现在,让我们看看In-Place TTT如何解决这些问题。
**核心洞察: repurposing MLP blocks(重用MLP模块)**
作者们提出了一个看似简单却极其巧妙的想法:与其引入新的TTT层,不如直接**重用现有的MLP块**。
在Transformer中,每个层都有两个主要组件:
1. **Attention机制**:负责token之间的信息交互
2. **MLP(多层感知机)**:对每个token进行独立的变换
标准的MLP结构(特别是gated MLP)是这样的:
```
O = (φ(HW_gate^T) ⊙ (HW_up^T))W_down^T
```
其中:
- H是输入表示
- W_gate和W_up是输入投影矩阵
- φ是激活函数(如SwiGLU中的sigmoid)
- ⊙是逐元素乘法
- W_down是最终的输出投影矩阵
In-Place TTT的关键创新是:**把W_down当作fast weights**。
具体来说:
- W_up和W_gate保持冻结(slow weights),保存预训练学到的知识
- W_down在推理时动态更新(fast weights),适应当前的上下文
这就像什么呢?
想象那个厨师的例子。W_up和W_gate像是厨师的基本功——刀工、火候控制、基础调味。这些是他培训时学到的核心技能,不应该轻易改变。W_down则像是厨师根据当前客人偏好做出的微调——今天这桌客人喜欢辣一点,那就多加些辣椒;明天那桌客人口味清淡,就少放盐。
这种设计的妙处在于:
1. **完全兼容现有架构**:不需要修改模型结构,不需要重新训练。任何一个基于gated MLP的预训练模型都可以直接应用In-Place TTT。
2. **保留预训练知识**:attention机制和MLP的大部分参数都保持冻结,这意味着模型的核心能力不会被破坏。
3. **最小侵入性**:你只是让模型的一部分在运行时自我调整,而不是颠覆整个系统。
这就是为什么它被称为"In-Place"——它就地(in-place)重用了现有的组件。
### 2.4 目标函数的重新设计
但In-Place TTT的创新不止于此。
作者们意识到,传统的reconstruction objective对于语言模型来说并不是最优的。他们设计了一个新的目标函数,专门**对齐next-token prediction任务**。
具体来说,他们不再用通用的MSE损失来更新fast weights,而是使用一个**理论上基于**的损失函数,它直接优化模型预测下一个token的能力。
这个新的目标函数可以看作是在问:"根据当前的上下文,fast weights应该存储什么样的信息,才能最好地帮助预测下一个token?"
这是一个微妙但关键的转变。它让fast weights不再只是被动地"记住"过去的信息,而是主动地"学习"对预测有用的信息。
### 2.5 Chunk-wise更新与上下文并行
最后,让我们谈谈工程实现上的智慧。
传统的TTT是严格顺序的:你必须先处理完第i-1个token,更新了fast weights,才能处理第i个token。这在现代硬件上是一个非常严重的瓶颈,因为GPU擅长并行计算,不擅长顺序依赖。
In-Place TTT采用了一个**chunk-wise update(分块更新)**的策略:
1. 把整个序列分成多个chunks(块)
2. 在每个chunk内部并行计算intermediate activations和fast weight updates
3. 使用**prefix sum(前缀和)**来聚合各个chunk的更新
4. 最后并行应用更新并计算输出
更妙的是,这个分块更新是**associative(可结合的)**,这意味着它天然支持**Context Parallelism(上下文并行)**——不同的chunks可以在不同的GPU上并行处理。
算法的大致流程如下(单层的伪代码):
```
对于所有chunks并行地:
1. 通过标准的AttentionBlock计算H_i
2. 计算U_i, G_i = H_i W_up^T, H_i W_gate^T
3. 计算Z_i = φ(G_i) ⊙ U_i
4. 计算V_i(NTP-aligned target,使用causal padding)
5. 计算更新增量ΔW_i = V_i^T Z_i
执行前缀和:{S_i} = CUMSUM({ΔW_i})
对于所有chunks并行地:
1. 计算有效权重:W_down^(i-1) = W_down^(0) + η S_i
2. 计算输出:O_i = Z_i (W_down^(i-1))^T
在文档边界处:重置fast weights到W_down^(0)
```
这个设计的巧妙之处在于:
- **并行性**:大部分计算是并行进行的,充分利用了现代硬件
- **因果性**:通过causal padding确保每个chunk的更新不包含"未来"信息
- **可扩展性**:可以很容易地扩展到更长的序列和更多的GPU
实验结果表明,In-Place TTT让一个4B参数的模型能够在128K上下文的任务上取得优异的表现。这是一个非常令人印象深刻的数字——128K相当于一本长篇小说的长度。
---
## 第三章:华山论剑——两种哲学的对决
好了,现在我们已经理解了PoM和In-Place TTT各自的工作原理。让我们把它们放在一起,看看这两种思路的异同。
这就像两位武术大师在华山之巅论剑。一位是架构革命派的代表,内力深厚,招式新颖;一位是范式革新派的传人,身法灵动,善于应变。他们的对决不是生死相搏,而是相互映照,让我们看清两条道路各自的风景。
### 3.1 对比表格
| 维度 | PoM | In-Place TTT |
|------|-----|--------------|
| **变革层面** | 架构层 | 训练范式层 |
| **核心思想** | 替换Attention机制 | 动态参数更新 |
| **复杂度** | O(n)线性 | 保持原架构复杂度(O(n²)的attention仍然存在) |
| **部署方式** | 需要重新训练/微调 | 直接增强现有模型(drop-in enhancement) |
| **适应新数据** | 需要重新训练 | 推理时自动适应 |
| **理论保证** | 通用逼近能力(contextual mapping property) | 下一个token预测对齐(NTP-aligned objective) |
| **适用场景** | 长序列、资源受限环境 | 持续学习、流式数据、个性化 |
| **硬件友好性** | 高(线性复杂度,易并行) | 高(兼容上下文并行,高效chunk-wise更新) |
| **主要优势** | 从根本上解决计算瓶颈 | 赋予模型动态适应能力 |
| **潜在局限** | 需要重新训练,前期投入大 | 不改变attention的二次方复杂度 |
### 3.2 不同层面的变革
PoM和In-Place TTT最根本的区别在于它们干预的层面不同。
PoM是在**架构层面**进行革新。它说:"当前的架构有问题,我们需要一个新的基础模块。"这就像修路工程师决定拆掉石板路,铺上高速公路。这是一种"推倒重来"的勇气。
In-Place TTT则是在**训练范式层面**进行创新。它说:"当前的架构没问题,但使用它的方式有问题。模型不应该在部署后就停止学习。"这就像智能导航系统,它不改变道路,但改变了车辆使用道路的方式。
这两种思路没有对错之分,它们只是针对不同的约束条件做出了不同的选择。
### 3.3 复杂度的权衡
在复杂度方面,PoM有明显的优势。
PoM是O(n)线性复杂度,这意味着它在处理长序列时计算效率更高。对于128K甚至更长序列的任务,PoM的优势会非常明显。
In-Place TTT则保持了原有的架构复杂度。它并没有替换attention机制,而是在attention之上增加了TTT的能力。因此,它的计算复杂度仍然受到O(n²)attention的限制。
但这里有一个微妙的地方:In-Place TTT通过让模型更好地利用上下文,可能在某些情况下减少所需的序列长度。如果一个模型能够有效地"内化"长距离的信息,它可能不需要看到整个128K的上下文就能做出好的预测。
### 3.4 部署的便利性
在部署方面,In-Place TTT有显著的优势。
它的"drop-in enhancement"设计意味着你可以直接把它应用到现有的预训练模型上,而不需要重新训练。这对于生产环境中的LLM来说是一个巨大的优势——重新训练一个数十亿参数的模型需要数百万美元的计算成本。
PoM虽然也被设计成"drop-in replacement",但在实践中,替换模型的核心组件通常仍然需要一定程度的重新训练或微调。你不能直接把一个用attention训练好的模型的权重搬到一个用PoM的模型上——它们的内部表示是不同的。
### 3.5 适应性的差异
这是两种方法最关键的差异之一。
PoM本质上仍然是一个**静态模型**。一旦训练完成,它的权重就固定了。如果它在训练时没见过某种类型的数据,它在部署后遇到这类数据时仍然可能表现不佳。
In-Place TTT则赋予模型**动态适应**的能力。通过fast weights的在线更新,模型可以在处理新数据时不断调整自己。这意味着:
- 它可以更好地处理领域迁移问题
- 它可以适应概念漂移
- 它可以进行个性化
- 它可以持续学习
这种动态适应的能力,在某种程度上更接近人类的学习方式。我们不是在接受完学校教育后就停止学习了——我们的一生都在不断学习、不断调整。
### 3.6 理论保证的不同风味
PoM和In-Place TTT都提供了理论保证,但保证的内容不同。
PoM保证的是**表达能力**:装备了PoM的Transformer仍然是通用序列逼近器。这意味着,只要有足够的数据和计算,PoM能够学习任何序列到序列的映射。
In-Place TTT保证的是**目标对齐**:它的fast weights更新目标与next-token prediction任务对齐。这意味着,fast weights会存储对预测下一个token最有用的信息。
这两种保证都很重要,但针对的是不同的问题。PoM回答的是"能不能学",In-Place TTT回答的是"学什么"。
---
## 第四章:深层思考——效率与适应性的权衡
### 4.1 架构创新与范式创新
PoM和In-Place TTT代表了两种不同类型的创新。
**架构创新**(如PoM)改变的是模型的"硬件"。它设计新的计算单元,寻找更高效的数学结构。这种创新的影响是深远的——如果一个新架构被证明是优越的,它可能成为未来十年的标准。
但架构创新也是高风险的。新的架构需要时间来验证,需要生态系统的支持(优化过的库、预训练好的模型、社区的知识积累)。而且,如果一个新架构与现有的架构差异太大,它可能面临采纳的阻力。
**范式创新**(如In-Place TTT)改变的是模型的"软件"——它使用现有硬件的方式。这种创新通常风险更低,因为它建立在已被验证的基础上。它可以更快地被采用,因为它不要求用户改变他们的基础设施。
但范式创新也有其局限。它只能在现有架构的约束内工作。如果底层架构本身有根本性的瓶颈(如attention的O(n²)复杂度),范式创新无法消除这些瓶颈,只能在一定程度上缓解它们。
### 4.2 计算效率 vs 模型适应性
PoM和In-Place TTT之间的选择,在某种程度上是**计算效率**与**模型适应性**之间的权衡。
PoM通过降低计算复杂度来提高效率。它让模型能够处理更长的序列,用更少的资源完成同样的任务。这是一种"让模型跑得更快"的思路。
In-Place TTT通过赋予模型动态学习的能力来提高适应性。它让模型能够更好地应对新情况,持续进化。这是一种"让模型变得更聪明"的思路。
在资源受限的场景(如边缘设备、实时应用),PoM的优势可能更明显。在长程任务和需要持续学习的场景(如对话系统、个性化推荐),In-Place TTT的优势可能更明显。
### 4.3 为什么两者不是竞争,而是互补
虽然我们把PoM和In-Place TTT放在一起对比,但实际上它们并不是竞争对手——它们是互补的。
想象一下,如果我们可以把PoM和In-Place TTT结合起来:
- 用PoM替代attention,获得O(n)的线性复杂度
- 同时在MLP层应用In-Place TTT,获得动态适应的能力
这样的系统会有:
1. 高效的计算(感谢PoM)
2. 动态的学习能力(感谢In-Place TTT)
3. 长序列处理能力(两者结合)
这不是科幻小说。从技术角度看,这两者的结合是完全可行的。PoM替换的是attention层,In-Place TTT修改的是MLP层——它们作用于模型的不同部分,不会互相干扰。
事实上,In-Place TTT论文中明确提到,他们的方法"operates complementarily to the attention mechanism(与attention机制互补)"。这意味着,即使有一天attention被其他机制(如PoM)替代,In-Place TTT的思想仍然适用。
### 4.4 未来可能的技术融合方向
那么,未来可能的技术融合方向是什么?
**方向一:线性复杂度 + 动态适应**
正如上面提到的,把PoM(或类似的线性复杂度token混合机制)与In-Place TTT结合起来,可能是一个非常有前景的方向。这样的系统既有计算效率,又有适应能力。
**方向二:多尺度记忆系统**
人类记忆有不同的时间尺度:工作记忆(几秒到几分钟)、短期记忆(几小时到几天)、长期记忆(几年甚至终身)。当前的LLM只有一个"记忆"——它们的参数。fast weights可以看作是一种工作记忆。未来的模型可能会有更复杂的多尺度记忆系统,结合不同时间尺度的学习能力。
**方向三:模块化的持续学习**
In-Place TTT展示了如何在不破坏预训练知识的情况下让模型学习新东西。这个思路可以扩展到更大的粒度——也许未来的模型会有专门用于学习的模块,这些模块可以独立更新,而不影响模型的其他部分。
**方向四:自适应计算**
PoM和In-Place TTT都在某种程度上提高了计算的自适应性。PoM让计算成本随序列长度线性增长,In-Place TTT让模型根据上下文动态调整。未来的模型可能会有更细粒度的自适应计算——比如,对于简单的输入,模型可以快速处理;对于复杂的输入,模型可以投入更多的计算资源。
---
## 结论:没有银弹,但有选择
在软件工程中,有一个著名的概念叫"No Silver Bullet(没有银弹)"——意思是没有一种技术能解决所有问题。同样的原则也适用于AI架构和范式。
PoM和In-Place TTT都不是"银弹"。它们各自解决了不同的问题,各自有不同的适用场景和局限性。
### 两种路线各自的适用场景
**PoM适合的场景:**
- 需要处理**极长序列**的任务(如长篇小说分析、高分辨率视频处理)
- **资源受限**的环境(如移动设备、边缘计算)
- 对**推理速度**有严格要求的实时应用
- 愿意投入资源进行**重新训练**以获得长期收益的场景
**In-Place TTT适合的场景:**
- 需要**动态适应**的任务(如持续学习、个性化对话)
- **领域迁移**频繁的部署环境
- 已经有一个**预训练好的模型**,希望增强其能力而不重新训练
- 需要**流式处理**的场景(数据不断到来,模型需要持续更新)
### 对研究者和工程师的启示
对于**研究者**,这两篇论文提供了宝贵的启示:
1. **不要只盯着benchmark上的数字**。PoM和In-Place TTT的真正价值不仅在于它们在特定任务上的表现,而在于它们开辟了新的可能性空间。PoM证明了我们可以有self-attention的替代品;In-Place TTT证明了模型可以在部署后继续学习。
2. **理论保证很重要**。PoM的contextual mapping property和In-Place TTT的NTP-aligned objective都提供了理论上的洞见。这些洞见不仅帮助我们理解方法为什么有效,也指导我们如何改进它们。
3. **工程实现与算法设计同等重要**。两篇论文都展示了优秀的工程设计:PoM的简洁API、In-Place TTT的chunk-wise并行。好的算法如果不能高效实现,其价值会大打折扣。
对于**工程师**,选择使用哪种技术取决于具体的约束:
1. **评估你的瓶颈**。如果你的主要问题是计算资源(内存、速度),PoM可能是更好的选择。如果你的主要问题是模型的适应能力(领域迁移、个性化),In-Place TTT可能是更好的选择。
2. **考虑迁移成本**。如果你已经有一个训练好的模型,In-Place TTT的迁移成本更低。如果你从零开始构建系统,PoM可能值得考虑。
3. **保持开放的心态**。技术在发展。今天的最佳选择可能不是明天的最佳选择。保持对新技术(如PoM和In-Place TTT)的关注,理解它们的原理和适用场景,这样当机会来临时你就能做出明智的选择。
### AI模型优化的未来图景
站在2026年这个时间点,我们可以看到一个清晰的图景正在形成:
**未来的AI系统将不再是静态的**。它们会像人类一样持续学习、不断进化。In-Place TTT代表的动态学习范式只是一个开始。
**计算效率仍然是核心挑战**。随着模型规模和应用场景的增长,我们需要更高效的架构。PoM代表的线性复杂度机制可能只是众多创新中的一个。
**模块化和组合将是关键**。未来的系统可能会由多个 specialized modules(专门模块)组成:有些模块负责高效计算,有些模块负责动态学习,有些模块负责长期记忆。这些模块可以灵活组合,根据具体任务的需求进行配置。
**理论与实践的紧密结合**。PoM和In-Place TTT都展示了理论洞见如何指导实践设计。未来的创新可能会更频繁地来自这种理论与实践的双向互动。
---
## 后记:两条路的交汇
回到引言中的那个比喻:修路工程师和智能导航系统工程师。
在现实中,这两者并不是对立的选择——最好的交通系统需要既宽敞又高效的道路,也需要智能的导航系统。道路提供了基础能力,导航系统让这种能力被更有效地利用。
PoM和In-Place TTT的关系也是如此。
PoM为我们提供了更高效的"道路"——一种能够处理长序列而不被计算复杂度拖垮的基础架构。In-Place TTT为我们提供了更智能的"导航系统"——让模型能够根据具体情况动态调整自己的策略。
也许在不久的将来,我们会看到融合了两者优点的系统。那将是一个既能高效处理海量数据,又能持续学习、不断进化的AI系统。
那将是一个值得期待的未来。
---
## 参考与延伸阅读
**PoM相关:**
- Picard, D., et al. (2026). PoM: A Linear-Time Replacement for Attention with the Polynomial Mixer. arXiv:2604.06129. Accepted to CVPR Findings 2026.
- GitHub: https://github.com/davidpicard/pom
**In-Place TTT相关:**
- Luo, S., et al. (2026). In-Place Test-Time Training. arXiv:2604.06169.
**相关背景工作:**
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS 2017.(Transformer原始论文)
- Yun, C., et al. (2020). Are Transformers universal approximators of sequence-to-sequence functions? ICLR 2020.(Transformer表达能力)
- Sun, Y., et al. (2020). Test-Time Training for Out-of-Distribution Generalization. ICML 2020.(TTT原始论文)
- Ba, J., et al. (2016). Using Fast Weights to Attend to the Recent Past. NeurIPS 2016.(Fast weights概念)
---
*"大自然具有一种简单性,因此相当优美。" —— Richard Feynman*
*"如果你无法用简单的语言解释它,说明你还不够理解它。" —— 常被归于Richard Feynman*
这两篇论文,以各自的方式,都体现了费曼所说的"简单性"。PoM用多项式这一古老的数学工具,优雅地解决了现代AI的复杂问题;In-Place TTT用一个简单的洞察——重用现有的MLP模块——开辟了模型动态学习的新范式。
它们提醒我们:在AI这个充满复杂术语和复杂架构的领域里,最美妙的想法往往来自最简单的洞察。
---
#论文对比 #PoM #TestTimeTraining #Attention #AI架构 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!