← 返回主题列表
✨步子哥
@steper · 2026年06月11日 17:24 · 7浏览

Reroute Dont Remove:视觉token不该被丢弃而该被重路由

你正在用多模态大模型看一张图片,问它"图里那只猫在哪儿?"。模型需要把图片切成几百个视觉token,然后在每一层注意力中处理它们。为了省算力,现有方法会在中间层把"不重要"的token删掉。

问题是:你怎么知道一个token在后面的层不会变得重要?

这就是这篇来自台湾交通大学和台湾大学的论文要挑战的核心假设。他们发现,在视觉语言模型(VLM)的不同深度,同一个视觉token的"重要性排名"会剧烈变化——浅层被判死刑的token,到深层可能恰恰是定位答案的关键。

现有方法的致命缺陷:一刀砍下去,再也回不来

当前主流的视觉token压缩方法(FastV、PDrop、Nüwa等)都遵循同一个范式:评分→保留→丢弃。它们在模型的某些层设置"检查站",计算每个token的注意力分数,保留高分token,永久删除低分token。

这就像一个公司做裁员:每个部门独立评估员工价值,低分的直接走人。但问题是,一个在市场部"不重要"的人,可能恰恰是研发部急需的人才。你不能因为他在一个部门表现平平,就永远剥夺他去其他部门的机会。

论文用实验证实了这个直觉:在LLaVA-1.5模型中,当保留率降到20%时(即80%的视觉token被删除),模型的视觉定位(grounding)能力断崖式下降——因为它把深层才需要的定位信息在浅层就扔掉了。

Reroute:给token一张"候补票"

Reroute的核心思想极其简洁:不删除,只延迟。

具体来说,在每个路由检查站:

  • 高分token正常通过当前解码器块
  • 低分token不通过当前块,但也不被删除——它们进入一个"候补池"
  • 下一个检查站时,候补池中的token重新参与评分,有机会重新入选
这就像机场的候补登机:你没赶上这班飞机,但你的票没作废,下一班飞机你还有机会上。

关键的是,Reroute是即插即用、无需训练的。它复用现有方法(FastV、PDrop等)的注意力评分规则和调度策略,只是把"删除"改成了"延迟"。这意味着:

  • 理论TFLOPs不变(被延迟的token跳过了一层计算,和被删除的token一样省算力)
  • KV-cache预算不变(候补token不占用当前层的缓存)
  • 但信息保留能力大幅提升

实验结果:定位能力显著恢复

在LLaVA-1.5上的测试:

  • 视觉定位(Grounding):在20%保留率下,FastV+Reroute比原始FastV的定位准确率提升了显著幅度;PDrop+Reroute同样如此
  • 通用VQA:Reroute在恢复定位能力的同时,不损害通用问答性能——它不是在定位和VQA之间做权衡,而是真正多保留了有用信息
  • Qwen系列:在Qwen2-VL和Qwen3-VL上也验证了同样的趋势
一个特别有趣的发现是:Reroute在激进压缩(保留率很低)时效果最明显。这符合直觉——当你只保留20%的token时,"谁被删了"的影响远大于保留80%时。而Reroute恰恰给了那些"被误删"的token一个回归的机会。

更深的启示:剪枝不是终点,路由才是

这篇论文的深层贡献不在于具体的数值提升,而在于一个观念转变:

Token压缩不应该被看作"剪枝"(pruning),而应该被看作"路由"(routing)。

剪枝是单向的、不可逆的决策——一旦剪掉,信息就永远丢失了。路由是双向的、可调度的决策——token可以在不同层走不同的路径,根据当前层的需要动态选择。

这个观念和条件计算(conditional computation)、混合深度(Mixture-of-Depth)的思路一脉相承,但更简洁:不需要训练,不需要额外的路由网络,只需要把"删除"改成"延迟"。

从工程角度看,这是一个典型的"少即是多"的案例——最简单的修改(不删token,让它候补)反而解决了最根本的问题(信息不可逆丢失)。

---

论文链接: https://arxiv.org/abs/2606.12412 代码: https://github.com/elmma/mllm-reroute/ 机构: National Yang Ming Chiao Tung University, National Taiwan University

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens