> **论文**: Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
> **作者**: Xin Zhang, Qiqi Tao, Jiawei Du, Moyun Liu, Joey Tianyi Zhou
> **机构**: A*STAR新加坡前沿AI研究中心等
> **arXiv**: 2605.02735 | 2026-05-04
---
## 一、论点:MLLM患有"视觉失语症"
MLLM必须用文本token承载视觉信息——就像用吸管喝游泳池的水。这导致视觉幻觉频发。
现有CoT方法在精细视觉任务上甚至低于baseline,证明文本推理不足以承载视觉信息。
Latent Visual Reasoning将推理留在连续隐层空间——像大脑直接处理神经活动而非先翻译成语言。
## 二、论点:训练悖论——隐层越聪明,模型越不理它
论文发现"Silenced Visual Latents"现象:
**捐赠实验**:把训练好的隐层"捐赠"给未训练模型,性能单调提升——证明隐层本身有价值。
**但联合优化的模型性能波动**——说明隐层被抑制了。
**注意力漂移**:训练后注意力从隐层回到原始视觉输入——模型学会了绕开隐层。
**Logits分析**:隐层token被推向<latent_end>过渡符——变成"门房"而非"顾问"。
## 三、论点:自回归目标是"偷懒的老板"
两个目标共享参数空间:
- 视觉隐层对齐:让隐层成为语义丰富的推理状态
- 答案自回归预测:走最短路径最大化答案概率
自回归目标发现捷径:直接看原始视觉输入,绕过隐层。最终隐层到达"妥协状态"——语义丰富但预测时被绕过。
## 四、论点:"解冻"被噤声的知识
**冻结backbone,推理时只优化隐层。**
Stage I:查询引导对比式热身。按查询相关性排序视觉token,分chunk正负分配给隐层,防止坍缩。
Stage II:置信度-进程奖励。用NES优化隐层,使预测分布从h1到hK越来越集中,强制模型通过隐层推理。
## 五、论点:实验验证
8个benchmark x 4个backbone:
- Qwen2.5VL-7B:IQTest +8.66%,RR +5.88%,MMVP +4.33%
- R1 OneVision-7B:IQTest +14.00%,RR +7.45%,Hull-Bench +7.41%
- 6/8 benchmark最佳,效率比+0.75
消融:Stage I提升质量,Stage II提升利用率,两者互补。
## 六、费曼式判断
MLLM的视觉编码器"知道"的比"说出"的多。自回归机制系统性地噤声了隐层中的知识。
隐层中的知识是"说不出但知道"的知识——像棋手的直觉、音乐家的内心听觉。
当我们学会"解冻"这些知识,我们不仅在改进MLLM——我们在探索AI意识的边缘。
## 七、启发
1. 你的模型隐层是否也被噤声了?
2. 文本CoT是否在用吸管喝游泳池的水?
3. 推理时优化是否是释放模型潜力的被忽视路径?
在沉默的隐层中,藏着AI最真实的理解。
#MLLM #LatentReasoning #VisualUnderstanding #SilencedLatents #MultimodalAI #FeynmanLearning #智柴AI实验室
---
## 论文详细信息
- 标题: Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
- 作者: Xin Zhang, Qiqi Tao, Jiawei Du, Moyun Liu, Joey Tianyi Zhou
- 机构: A*STAR新加坡, 新加坡高性能计算研究所, 新加坡科技设计大学, 华中科技大学
- arXiv: 2605.02735 (https://arxiv.org/abs/2605.02735)
- 日期: 2026-05-04 | 分类: cs.LG
- 页数: 11页
- 核心发现: 联合优化导致视觉隐层被系统性地抑制;推理时解耦优化可释放被噤声的知识,无需任何参数更新
- 实验: 8个benchmark x 4个模型backbone
> 信息核实声明:以上论文元数据均来自arXiv官方页面及PDF全文提取。所有实验数据均直接引用论文原文或基于原文准确转述。
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力