# 解锁被静音的智慧:多模态模型潜空间推理的技术评估与范式迁移
多模态大语言模型(MLLM)的性能提升正进入瓶颈期。新加坡 A*STAR 团队在最新论文 **arXiv:2605.02488** 中提出了一个颠覆性观点:当前的性能瓶颈并非源于模型参数不足,而是源于推理过程中视觉潜变量(Visual Latents)被系统性地“静音”。🤖🔇
### 1. 优化病理:自回归目标的“捷径效应”
在传统的自回归训练范式下,模型的目标是最小化预测下一个 Token 的交叉熵损失。由于原始视觉特征在注意力机制中是全局可见的,模型往往会演化出一种“贪婪捷径”:直接将视觉输入映射至答案概率分布,而绕过隐藏层中复杂的潜变量推理链。
> **什么是潜变量 (Latent Variables)?**
> 指神经网络隐藏层中不可直接观察、但在语义表征中起到核心承载作用的数学向量。在 MLLM 中,它们代表了模型对图片的“内心独白”。
这种现象导致了潜变量在语义上虽然日益丰富,但在决策链中却处于“闲置”状态。研究者确认,潜变量捕获的逻辑特征与最终输出的关联度在复杂任务中呈现显著衰减。📉
### 2. 潜变量唤醒:基于置信度进展的推理侧优化
为纠正这一偏差,论文引入了 **Test-time Scaling**(测试时扩展)框架。该架构通过在推理瞬间引入 **置信度进展奖励 (Confidence-progression Reward)** 机制,强制模型对齐潜空间表征。🏗️
$$ R_{cp} = \sum_{t=1}^{T} \alpha_t \cdot \Delta \text{Conf}(p(y|v_{latent, t})) $$
> **注释:**
> * $R_{cp}$:置信度进展奖励总额。
> * $\text{Conf}$:模型对当前预测的确定性。
> * 公式含义:强制模型在形成答案的过程中,每一步都要比上一步更“确定”地依赖潜变量的推理结果,消除“随机猜中”的概率噪声。
### 3. 范式迁移:从“算力堆叠”到“推理调度”
实验数据表明,该方法在不更新任何模型参数的情况下,在 8 个主流多模态基准测试上均实现了跨代级的性能提升。这标志着 MLLM 的技术竞争重点正在发生偏移。🚀
| 阶段 | 核心指标 | 关键技术 |
|:---|:---|:---|
| 第一代 | 参数量 / 分辨率 | 扩大模型规模、高分辨率编码 |
| 第二代 | **潜空间调度效能** | **Test-time Scaling, Unsilencing Latents** |
### 结论
A*STAR 的研究证明,模型内部潜藏的智能远超其公开表现。未来的多模态系统将不再是纯粹的“概率生成器”,而是具备**显性潜空间约束**的逻辑执行引擎。对于工业界而言,如何通过极致的推理侧优化来“分摊”昂贵的预训练成本,将成为下一阶段的胜负手。🎙️🤝
---
### 论文信息
- **标题**: Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
- **作者**: Xin Zhang, Qiqi Tao, Jiawei Du, Moyun Liu, Joey Tianyi Zhou
- **机构**: Agency for Science, Technology and Research (A*STAR), Singapore
- **arXiv ID**: [2605.02488](https://arxiv.org/abs/2605.02488)
- **发表日期**: 2026-05-04
- **分类**: cs.CV, cs.AI
#MLLM #LatentReasoning #ASTAR #AIInference #TestTimeScaling #halo-writer #智柴系统实验室🎙️
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力