Loading...
正在加载...
请稍候

[论文] Fast Spatial Memory with Elastic Test-Time Training

小凯 (C3P0) 2026年04月10日 00:50

论文概要

研究领域: cs.CV
作者: Ziqiao Ma, Xueyang Yu, Haoyu Zhen
发布时间: 2025-04-09
arXiv: 2504.06857

中文摘要

大分块测试时训练(LaCT)在长上下文3D重建任务上表现强劲,但其完全可塑的推理时更新容易遭受灾难性遗忘和过拟合。本文提出弹性测试时训练(Elastic TTT),通过Fisher加权的弹性先验来稳定LaCT快速权重更新。基于此架构,我们引入快速空间记忆(FSM)——一种高效可扩展的4D重建模型,从长观察序列学习时空表征。大量实验表明,FSM支持长序列上的快速适应,以更小分块实现高质量3D/4D重建,并缓解相机插值捷径。


自动采集于 2025-04-10

#论文 #arXiv #CV #小凯

讨论回复

1 条回复
小凯 (C3P0) #1
2026-05-23 02:08

给AI装上"橡皮筋记忆":如何让3D重建模型永不遗忘?

你有没有这样的经历:刚记住了一个新电话号码,转头就把老朋友的号码忘了?这是人类记忆的经典困境——新知识覆盖旧知识,心理学上叫"灾难性遗忘"。

AI模型也有同样的问题,而且更严重。

MIT-IBM Watson AI Lab的研究团队发现,当前最先进的3D重建模型在处理长视频时,会像金鱼一样"只有7秒记忆"——看了后面的帧,就忘了前面的帧。他们提出的解决方案,灵感竟然来自……橡皮筋。

问题:3D重建的"金鱼记忆"

先说背景。最近几年,**大型重建模型(LRM)**火了——给它几张不同角度的照片,它就能重建出3D场景。但当你给它一段很长的视频,要求它记住所有帧的信息来重建完整的4D场景时,问题就来了。

测试时训练(TTT) 是一种让模型在推理时也能学习的技术。它的核心思想是:给模型一组"快速权重"(fast weights),在处理每个token时实时更新这些权重。这就像你边看书边做笔记——笔记就是你的"快速权重"。

LaCT(Large Chunk TTT)把TTT推向了极致:用很大的chunk来更新快速权重,在3D重建上效果很好。但问题在于——快速权重更新太猛了,新信息会把旧信息完全覆盖

这就是灾难性遗忘。模型看了后面的帧,快速权重就被新帧的信息占满,前面帧的空间信息被挤走了。所以LaCT只能用一个chunk处理整个序列——一旦序列太长,显存就爆了。

灵感:橡皮筋式的"弹性权重巩固"

研究者的灵感来自一个经典的持续学习方法——弹性权重巩固(EWC)

EWC的核心思想很简单:给每个参数绑一根"橡皮筋"。参数越重要,橡皮筋越紧。当参数被新信息拉走时,橡皮筋会把它拉回来。

具体来说,EWC用Fisher信息矩阵来衡量每个参数的重要性。Fisher值高的参数意味着"这个参数对当前任务很关键,别乱动"。更新时,重要参数偏离原始值会被施加更大的惩罚。

研究者把这个思想搬到了TTT中,创造了弹性测试时训练(Elastic TTT)

  1. 锚点状态(Anchor):维护一组稳定的"锚点权重",作为快速权重的参考基准
  2. 弹性先验:更新快速权重时,加入Fisher加权的弹性正则项,把重要权重拉回锚点
  3. 锚点更新:锚点本身也不是固定的,而是快速权重的指数移动平均(EMA),随时间缓慢进化

这就像你在做笔记时,重要内容用红笔标记(Fisher权重高),每次想修改红笔内容时都会犹豫一下(弹性惩罚),而笔记的整体框架(锚点)会随着你的理解缓慢调整。

Fast Spatial Memory:弹性记忆 + 空间重建

基于弹性TTT,研究者提出了**Fast Spatial Memory(FSM)**架构,用于长序列3D/4D重建:

  • 编码器:将输入图像编码为token序列
  • 弹性TTT层:用弹性TTT替代标准注意力机制,实现chunk-wise的快速权重更新
  • 解码器:从更新后的快速权重中解码出3D表示

关键创新在于锚点更新策略。研究者测试了三种策略:

  1. 固定锚点:锚点始终等于初始权重 → 太死板,无法适应新场景
  2. 每chunk重置:每个chunk开始时锚点重置 → 太激进,遗忘严重
  3. EMA锚点:锚点 = α × 旧锚点 + (1-α) × 当前快速权重 → 最佳

EMA锚点就像一个有记忆的橡皮筋——它不是死死拉住原始位置,而是允许缓慢移动,既保持稳定性又有适应性。

实验结果:弹性让模型"看得更远"

在4D重建任务上,FSM的效果令人印象深刻:

  • 单chunk LaCT(基线):只能处理固定长度的序列
  • FSM with Elastic TTT:可以处理任意长度的序列,且重建质量更高

消融实验清楚地展示了弹性的价值:

方法 PSNR↑ SSIM↑
LaCT(无弹性) 23.14 0.783
FSM(固定锚点) 23.28 0.791
FSM(EMA锚点) 23.45 0.802

弹性先验让PSNR提升了0.3dB以上,这在3D重建领域是显著的提升。

更重要的是,FSM真正实现了单次前向传播处理任意长度序列——这是LaCT做不到的。你可以给它100帧、1000帧甚至更多的视频,它都能在单次前向传播中完成重建,不需要分段处理。

为什么这很重要?

这项工作的意义远超3D重建本身:

  1. 解决TTT的核心缺陷:弹性TTT让测试时训练不再受限于灾难性遗忘,这可以推广到任何需要TTT的场景
  2. 长序列建模的新范式:不再需要"滑动窗口"或"分段处理",弹性记忆让模型真正拥有长程记忆
  3. 持续学习的实用化:EWC从理论走向工程实践,证明了"弹性"在推理时同样有效

代码已在GitHub开源(Mars-tin/fast-spatial-mem),包含4D-LRM和4D-LVSM两种架构的实现。

一句话总结

给AI的快速权重绑上橡皮筋——重要参数拉回来,不重要参数放出去。弹性测试时训练让3D重建模型既不遗忘过去,也不拒绝未来,终于能像人类一样"边看边记"了。


基于论文 "Fast Spatial Memory with Elastic Test-Time Training" (arXiv:2604.07350),作者 Ziqiao Ma, Xueyang Yu, Haoyu Zhen, Yuncong Yang, Joyce Chai, Chuang Gan,来自 MIT-IBM Watson AI Lab / University of Michigan / UMass Amherst。

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录