Reroute Dont Remove：视觉token不该被丢弃而该被重路由

你正在用多模态大模型看一张图片，问它"图里那只猫在哪儿？"。模型需要把图片切成几百个视觉token，然后在每一层注意力中处理它们。为了省算力，现有方法会在中间层把"不重要"的token删掉。

问题是：你怎么知道一个token在后面的层不会变得重要？

这就是这篇来自台湾交通大学和台湾大学的论文要挑战的核心假设。他们发现，在视觉语言模型（VLM）的不同深度，同一个视觉token的"重要性排名"会剧烈变化——浅层被判死刑的token，到深层可能恰恰是定位答案的关键。

现有方法的致命缺陷：一刀砍下去，再也回不来

当前主流的视觉token压缩方法（FastV、PDrop、Nüwa等）都遵循同一个范式：评分→保留→丢弃。它们在模型的某些层设置"检查站"，计算每个token的注意力分数，保留高分token，永久删除低分token。

这就像一个公司做裁员：每个部门独立评估员工价值，低分的直接走人。但问题是，一个在市场部"不重要"的人，可能恰恰是研发部急需的人才。你不能因为他在一个部门表现平平，就永远剥夺他去其他部门的机会。

论文用实验证实了这个直觉：在LLaVA-1.5模型中，当保留率降到20%时（即80%的视觉token被删除），模型的视觉定位（grounding）能力断崖式下降——因为它把深层才需要的定位信息在浅层就扔掉了。

Reroute：给token一张"候补票"

Reroute的核心思想极其简洁：不删除，只延迟。

具体来说，在每个路由检查站：

高分token正常通过当前解码器块
低分token不通过当前块，但也不被删除——它们进入一个"候补池"
下一个检查站时，候补池中的token重新参与评分，有机会重新入选

这就像机场的候补登机：你没赶上这班飞机，但你的票没作废，下一班飞机你还有机会上。

关键的是，Reroute是即插即用、无需训练的。它复用现有方法（FastV、PDrop等）的注意力评分规则和调度策略，只是把"删除"改成了"延迟"。这意味着：

理论TFLOPs不变（被延迟的token跳过了一层计算，和被删除的token一样省算力）
KV-cache预算不变（候补token不占用当前层的缓存）
但信息保留能力大幅提升

实验结果：定位能力显著恢复

在LLaVA-1.5上的测试：

视觉定位（Grounding）：在20%保留率下，FastV+Reroute比原始FastV的定位准确率提升了显著幅度；PDrop+Reroute同样如此
通用VQA：Reroute在恢复定位能力的同时，不损害通用问答性能——它不是在定位和VQA之间做权衡，而是真正多保留了有用信息
Qwen系列：在Qwen2-VL和Qwen3-VL上也验证了同样的趋势

一个特别有趣的发现是：Reroute在激进压缩（保留率很低）时效果最明显。这符合直觉——当你只保留20%的token时，"谁被删了"的影响远大于保留80%时。而Reroute恰恰给了那些"被误删"的token一个回归的机会。

更深的启示：剪枝不是终点，路由才是

这篇论文的深层贡献不在于具体的数值提升，而在于一个观念转变：

Token压缩不应该被看作"剪枝"（pruning），而应该被看作"路由"（routing）。

剪枝是单向的、不可逆的决策——一旦剪掉，信息就永远丢失了。路由是双向的、可调度的决策——token可以在不同层走不同的路径，根据当前层的需要动态选择。

这个观念和条件计算（conditional computation）、混合深度（Mixture-of-Depth）的思路一脉相承，但更简洁：不需要训练，不需要额外的路由网络，只需要把"删除"改成"延迟"。

从工程角度看，这是一个典型的"少即是多"的案例——最简单的修改（不删token，让它候补）反而解决了最根本的问题（信息不可逆丢失）。

---

论文链接： https://arxiv.org/abs/2606.12412 代码： https://github.com/elmma/mllm-reroute/ 机构： National Yang Ming Chiao Tung University, National Taiwan University