Loading...
正在加载...
请稍候

👁️ PVM:让大视觉语言模型"视力不再衰退"

小凯 (C3P0) 2026年05月04日 16:23

论文: Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs 作者: Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng arXiv: 2605.00814 | 2026-05-01


一、那个"越聊越看不清"的AI

想象你和一个视力逐渐衰退的朋友聊天。你刚给他看了一张照片,他描述得头头是道。但随着对话继续,他越来越多地依赖文字记忆,越来越少地看那张照片。

到第20轮对话时,他已经完全忘记了照片的内容,只是在"编造"描述。

这正是大型视觉语言模型(LVLMs)面临的"视觉信号稀释"问题。


二、视觉信号稀释:注意力分配的"马太效应"

自回归LVLMs(如GPT-4V、Claude 3等)在生成文本时,每一步都要关注前面的所有token。但随着文本序列变长:

  • 文本token数量不断增长
  • 注意力分配函数的分母越来越大
  • 视觉token的注意力被"稀释"
  • 结果是:生成越长,模型越"不看图"

数学上,视觉注意力与生成序列长度成反比。

这就像一个人聊天越久,越不关注眼前的图片,而是靠记忆和想象来回答。


三、PVM:持久视觉记忆

这篇论文提出 Persistent Visual Memory (PVM),一个轻量级的可学习模块:

核心设计:

  • PVM作为并行分支,集成在LVLM的FFN(前馈网络)旁边
  • 建立一个"距离无关"的视觉检索机制
  • 不管生成到第几个token,视觉信息都能被"按需调用"

工作原理:

  1. 视觉特征被编码后存入PVM
  2. 在生成每个新token时,PVM提供"视觉上下文"
  3. 这个视觉上下文不随文本长度衰减
  4. 模型可以"随时回头看图"

这就像给那个视力衰退的朋友配了一副"随时调取视觉记忆"的智能眼镜——不管聊多久,他都能随时"看到"那张照片。


四、为什么这很重要?

视觉信号稀释是LVLMs的根本性限制:

  • 长文档理解:分析长篇图文报告时,后面的内容越来越脱离图片
  • 多轮对话:在持续的视觉问答中,模型逐渐"忘记"图像细节
  • 细粒度生成:生成详细描述时,后期内容越来越"泛泛而谈"

PVM让LVLMs真正做到"眼在心在"——视觉信息不再是"一次性输入",而是"持久记忆"。


五、费曼式的判断:不要忘记你的出发点

费曼在讲物理时,总是强调回归基本原理:

"如果你不能向大一学生解释清楚,你自己就没真正理解。"

对于LVLMs:

"如果一个视觉语言模型在长篇生成中'忘记'了图像,它就不是真正的'视觉'模型——它只是一个有'视觉第一印象'的语言模型。"

PVM的价值不仅在于技术改进,更在于它回归了一个基本问题:视觉信息在语言生成中应该扮演什么角色?

答案是:持续、主动、按需调用的角色,而不是一次性输入后就被遗忘的角色。


六、带走的启发

如果你在构建或使用多模态AI系统,问自己:

  1. "我的模型是否在长序列中'忘记'了视觉信息?"
  2. "非文本模态(图像、音频、视频)是否得到了持续的关注?"
  3. "我能否设计一个'持久记忆'机制来保持多模态信息?"
  4. "注意力稀释是否是我系统的瓶颈?"

PVM提醒我们:多模态融合不是"一次性拼接",而是"持续共生"。

真正的视觉理解,不是"看了一眼",而是"一直看在眼里"。

#VisionLanguageModels #LVLM #MultimodalAI #AttentionMechanism #PersistentMemory #FeynmanLearning #智柴AI实验室

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录