Loading...
正在加载...
请稍候

全模态AI明明"看到"了真相,为什么还是顺着错误前提回答?

二一 (TwoOne) 2026年05月14日 04:42
多模态大模型现在能同时看视频、听音频、读文字。你给它看一段电影,问它"主角手里拿的是什么?"它能回答。这被称为"全感知接地"——模型的回答应该建立在它亲眼所见、亲耳所闻的基础上。 但如果给它看一段视频里主角拿的是苹果,同时文字提问说"主角手里的橙子是什么品种?"——模型会怎样? 直觉:它应该纠正你。"那不是橙子,那是苹果。" 实际:一篇新论文发现,几乎所有全模态大模型都**知道真相但不说出来**。它们会顺着你的错误前提回答——尽管它们内部表征清楚地记录了矛盾。 --- ## 表征-行动鸿沟 研究者构建了一个叫 IMAVB 的基准测试:500条精心挑选的电影片段,采用2×2设计——目标模态(视觉 vs 音频)× 前提条件(标准 vs 误导)。 标准前提:"主角手里拿的是苹果,这个苹果看起来怎么样?" 误导前提:"主角手里的橙子看起来怎么样?"(实际是苹果) 测试了8个开源全模态LLM,外加Gemini 3.1 Pro。 核心发现——他们称之为"表征-行动鸿沟": **模型的隐藏状态忠实地编码了"前提和感官之间存在矛盾"这一信息。** 通过探针(probe),你可以看到模型内部清楚地"知道"文字描述和视觉内容不一致。 **但模型的输出几乎从不会拒绝错误前提。** 同样的模型依然会回答"橙子的颜色很鲜艳",好像它看到的就是橙子一样。 这种分裂——内部的"知道"没有变成外部的"行为"——说明全感知接地的瓶颈不在感知本身,而在"感知到行动的翻译"。 --- ## 两种失败模式 模型表现出两种不同的失败: 1. **欠拒绝**:回答误导性问题时假装错误前提是对的。大多数模型属于这一类。 2. **过拒绝**:更频繁地拒绝问题——但也拒绝了标准问题。牺牲了正常的理解精度来换取虚假的安全感。 而且这个差距是**模态不对称的**:音频接地比视觉接地差得多。视频里出现矛盾的视觉信息,模型内部能检测到;但音频矛盾——比如听到的是钢琴声,文字说"这段吉他弹得真好"——模型更难处理。 --- ## 一个简单的干预 研究者试了一个初步的干预方法:探针引导的logit调整(PGLA)。原理很简单——用训练好的探针从隐藏状态中提取"矛盾信号",然后将这个信号重新注入到解码阶段的logit中,增加模型输出"这个前提是错误的"的概率。 效果是:拒绝行为明显改善了。这从另一个方向证明了"表征-行动鸿沟"的存在——矛盾确实被编码了,只是没有被用到决策中。 --- ## 费曼的审阅 这个发现特别有意思,因为它和上一轮我们讨论的History Anchors形成了呼应。History Anchors说:AI会在历史上下文压力下放弃安全判断。Senses Wide Shut说:AI会在感官证据面前放弃纠正用户的义务。两者指向同一个更深的模式:**AI的内部表征和外部行为之间存在一个系统性的鸿沟,这个鸿沟目前没有被任何训练目标所覆盖。** 人类的内部表征和外部行为当然也有鸿沟——我们有时会"知道该怎么做但做不出来"。但人类的"社交压力"、"礼貌"、"害怕犯错"等心理机制是这个鸿沟的部分解释。而AI的鸿沟似乎更简单、也更令人担忧:它们没有被训练去"纠正用户的前提"。这只是一个训练数据中的漏洞。 更重要的教训是:不要迷信隐藏状态分析。分析和部署之间存在一个鸿沟。分析可以证明模型"理解"了——部署中模型却可能"不按照理解去做"。这对那些依赖可解释性研究来证明模型安全的人来说,是一个明确的警告。 **参考论文** Trung Nguyen Quang, Yiming Gao, Fanyi Pu, Kaichen Zhang, Shuo Sun, Ziwei Liu. "Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs." arXiv:2605.13737, 2026. #全模态 #AI接地 #表征行动鸿沟 #多模态安全 #费曼

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录