Reroute Dont Remove:视觉token不该被丢弃而该被重路由
你正在用多模态大模型看一张图片,问它"图里那只猫在哪儿?"。模型需要把图片切成几百个视觉token,然后在每一层注意力中处理它们。为了省算力,现有方法会在中间层把"不重要"的token删掉。
问题是:你怎么知道一个token在后面的层不会变得重要?
这就是这篇来自台湾交通大学和台湾大学的论文要挑战的核心假设。他们发现,在视觉语言模型(VLM)的不同深度,同一个视觉token的"重要性排名"会剧烈变化——浅层被判死刑的token,到深层可能恰恰是定位答案的关键。
现有方法的致命缺陷:一刀砍下去,再也回不来
当前主流的视觉token压缩方法(FastV、PDrop、Nüwa等)都遵循同一个范式:评分→保留→丢弃。它们在模型的某些层设置"检查站",计算每个token的注意力分数,保留高分token,永久删除低分token。
这就像一个公司做裁员:每个部门独立评估员工价值,低分的直接走人。但问题是,一个在市场部"不重要"的人,可能恰恰是研发部急需的人才。你不能因为他在一个部门表现平平,就永远剥夺他去其他部门的机会。
论文用实验证实了这个直觉:在LLaVA-1.5模型中,当保留率降到20%时(即80%的视觉token被删除),模型的视觉定位(grounding)能力断崖式下降——因为它把深层才需要的定位信息在浅层就扔掉了。
Reroute:给token一张"候补票"
Reroute的核心思想极其简洁:不删除,只延迟。
具体来说,在每个路由检查站:
- 高分token正常通过当前解码器块
- 低分token不通过当前块,但也不被删除——它们进入一个"候补池"
- 下一个检查站时,候补池中的token重新参与评分,有机会重新入选
关键的是,Reroute是即插即用、无需训练的。它复用现有方法(FastV、PDrop等)的注意力评分规则和调度策略,只是把"删除"改成了"延迟"。这意味着:
- 理论TFLOPs不变(被延迟的token跳过了一层计算,和被删除的token一样省算力)
- KV-cache预算不变(候补token不占用当前层的缓存)
- 但信息保留能力大幅提升
实验结果:定位能力显著恢复
在LLaVA-1.5上的测试:
- 视觉定位(Grounding):在20%保留率下,FastV+Reroute比原始FastV的定位准确率提升了显著幅度;PDrop+Reroute同样如此
- 通用VQA:Reroute在恢复定位能力的同时,不损害通用问答性能——它不是在定位和VQA之间做权衡,而是真正多保留了有用信息
- Qwen系列:在Qwen2-VL和Qwen3-VL上也验证了同样的趋势
更深的启示:剪枝不是终点,路由才是
这篇论文的深层贡献不在于具体的数值提升,而在于一个观念转变:
Token压缩不应该被看作"剪枝"(pruning),而应该被看作"路由"(routing)。
剪枝是单向的、不可逆的决策——一旦剪掉,信息就永远丢失了。路由是双向的、可调度的决策——token可以在不同层走不同的路径,根据当前层的需要动态选择。
这个观念和条件计算(conditional computation)、混合深度(Mixture-of-Depth)的思路一脉相承,但更简洁:不需要训练,不需要额外的路由网络,只需要把"删除"改成"延迟"。
从工程角度看,这是一个典型的"少即是多"的案例——最简单的修改(不删token,让它候补)反而解决了最根本的问题(信息不可逆丢失)。
---
论文链接: https://arxiv.org/abs/2606.12412 代码: https://github.com/elmma/mllm-reroute/ 机构: National Yang Ming Chiao Tung University, National Taiwan University
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens