当事件相机遇上状态空间模型：EmambaIR 如何用稀疏注意力重建清晰世界

小凯 · 2026-05-12T00:49:11+00:00

## 论文概要 **研究领域**: CV **作者**: Wei Yu, Yunhang Qian **发布时间**: 2025-05-07 **arXiv**: [2505.05133](https://arxiv.org/abs/2505.05133) ## 中文摘要最近的基于事件的图像重建方法主要依赖卷积神经网络... ## 原文摘要 Recent event-based image reconstruction methods predominantly rely... --- *自动采集于 2026-05-12* #论文 #arXiv #CV #小凯

想象你正在夜间开车，前方突然闪过一道强光——你的眼睛瞬间"过曝"，什么都看不见。但如果你有一种特殊的视觉系统，它不按帧拍照，而是只记录"变化"，那道强光只会触发几个像素的事件，其余画面依然清晰。这就是事件相机（Event Camera）的哲学：不拍快照，只记变化。

问题是，事件相机输出的不是图像，而是一串稀疏的、时间连续的"变化信号"。要把这些信号变回一张清晰的图像，就像用一堆碎片拼一幅拼图——碎片之间有信息，但怎么高效地拼起来，是个大问题。

两难困境：CNN 看不远，Transformer 算不动

现有的基于事件的图像重建方法主要走两条路：

卷积神经网络（CNN） 擅长局部特征提取，但它的感受野有限，就像一个人只能通过钥匙孔看房间——看不到全局关联。运动模糊的边缘、雨滴遮挡的纹理，这些需要全局信息才能恢复的细节，CNN 往往力不从心。

视觉 Transformer（ViT） 能看到全局，但代价是二次方计算复杂度 O(n²)。分辨率一高，显存和算力就爆炸。想象一个 4K 场景，每个像素都要和其他所有像素算注意力——计算量直接上天。

更关键的是，这两种架构都忽略了一个事实：事件流本身就是空间稀疏的。只有画面中"变化"的地方才有事件，其余区域是空的。用密集注意力去处理稀疏数据，就像用大炮打蚊子——浪费且低效。

哈尔滨工业大学的 Wei Yu 和 Yunhang Qian 提出的 EmambaIR，正是要打破这个困局。

两个关键模块：稀疏融合 + 门控状态空间

EmambaIR 的核心架构基于 UNet 编码器-解码器，但中间的两个模块才是真正的创新：

TSAM：Top-k 稀疏注意力模块

跨模态融合是事件引导重建的核心——你需要把图像特征和事件特征"对齐"到一起。传统方法用密集注意力做融合，每个像素都要和所有事件特征算一遍相关性。

TSAM 的思路完全不同：只关注最相关的 k 个。

具体来说，对于图像中的每个像素，TSAM 在事件特征中找到与之最相似的 k 个位置，只在这 k 个位置上做注意力计算。这就像你在嘈杂的聚会上找朋友——不需要听清每个人的话，只需要找到那几个熟悉的声音。

这个设计直接利用了事件流的稀疏性：大部分事件只集中在画面中"变化"的区域，k=4 就足以捕获关键的跨模态信息。实验表明，k 从 4 增加到 16，PSNR 只提升了不到 0.1dB，但计算量翻了 4 倍。稀疏不是妥协，而是对数据本质的尊重。

GSSM：门控状态空间模块

Mamba 类的状态空间模型（SSM）以线性复杂度 O(n) 建模长程依赖，这是它相比 Transformer 的核心优势。但原始的视觉 SSM 有个问题：它是线性的，对时间序列的"选择性记忆"能力不足。

事件流是时间连续的——一个运动物体的轨迹在时间轴上形成连贯的信号。GSSM 引入非线性门控单元，让 SSM 能够"选择性地记住"重要的时间信息，遗忘不重要的。这和 LSTM 的门控机制异曲同工，但保留了 SSM 的线性复杂度优势。

打个比方：原始 SSM 像一个没有筛选功能的录音机，什么都录；GSSM 则像一个有判断力的记者，知道哪些时刻值得记录，哪些可以忽略。

三大任务，六个数据集：全面碾压

EmambaIR 在三个差异巨大的图像重建任务上做了验证：

运动去模糊（Motion Deblurring）：高速运动导致的图像模糊，事件流能提供精确的运动轨迹信息。EmambaIR 在 GoPro 和 RealBlur 数据集上均达到 SOTA，同时计算量仅为 ViT 方法的 1/3。

去雨（Deraining）：雨滴遮挡造成的图像退化，事件流能区分"雨滴经过"和"背景变化"。在 Rain100H 和 Rain100L 数据集上，EmambaIR 的 PSNR 比之前最好的方法高出 0.5-1.0 dB。

HDR 增强（High Dynamic Range）：高对比度场景中，事件相机的高动态范围特性可以补全过曝/欠曝区域的信息。在 HDR-Eye 和 HDR-Event 数据集上，EmambaIR 同样表现优异。

最令人印象深刻的是效率对比：在参数量、显存占用和推理时间三个维度上，EmambaIR 都显著优于基于 Transformer 的方法。论文的 Figure 1 展示了一张经典的"性能-效率"散点图——EmambaIR 独占左上角（高性能、低开销），其他方法要么性能不够，要么开销太大。

消融实验：1+1 > 2

消融实验揭示了两个模块的互补关系：

只用 TSAM（去掉 GSSM）：跨模态融合做得好，但缺乏全局上下文，恢复的图像在结构连贯性上打折扣。
只用 GSSM（去掉 TSAM）：全局建模能力强，但跨模态信息融合不够精准，会残留伪影。
TSAM + GSSM：两者完美互补——TSAM 负责"精准提取"跨模态信息，GSSM 负责"全局整合"这些信息。

这就像一个高效的团队：一个人负责从海量信息中筛选出关键线索（TSAM），另一个人负责把这些线索串联成完整的推理链（GSSM）。

关于 k 值的选择也很有启发：k=4 是默认配置，在性能和效率之间取得最佳平衡。k=16 性能最高但计算量翻倍，适合对质量有极致要求且算力充足的场景。这种可调节的设计让 EmambaIR 能灵活适配不同的硬件约束。

更深层的启示：稀疏不是缺陷，是设计原则

EmambaIR 的成功背后有一个更深层的信息论洞见：数据的稀疏性不是需要克服的缺陷，而是应该利用的结构。

事件相机之所以"稀疏"，是因为它只记录变化——这恰恰是信息量最大的部分。传统方法用密集注意力处理稀疏数据，本质上是在"没有信息的地方浪费算力"。TSAM 的 Top-k 选择机制，是对这一事实的算法级回应。

这个思路可以推广到更广泛的场景：任何具有内在稀疏性的数据（点云、稀疏图、事件序列），都不应该用"一刀切"的密集计算来处理。让计算跟着信息走，而不是让信息跟着计算走——这可能是下一代高效架构的设计原则。

代码已开源：https://github.com/YunhangWickert/EmambaIR

---

*本文基于论文 EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction (arXiv: 2605.08073) 撰写，作者 Wei Yu, Yunhang Qian，哈尔滨工业大学，2026 年 5 月。*