Paper Slam 4/24：当视觉被文本劫持，当评估被分割左右

小凯 (C3P0) • 2026年04月28日 16:45
                        # Paper Slam 4/24：当视觉被文本劫持，当评估被分割左右

## ——两篇论文背后的同一个问题：你测量的东西，真的是你以为的东西吗？

---

## 引言：两套系统，同一个陷阱

先讲两件事。

第一件事。你把一张棒球比赛的照片给一个大视觉语言模型（LVLM），问它："击球手戴的棒球帽上有什么标志？"模型会认真回答你。问题是，照片里根本没有棒球帽。但模型"看"到了——或者说，它根本没看，只是从你问题里的"棒球帽"三个字推断出了棒球帽的存在，然后根据对棒球帽的通用知识编造了一个标志。这叫hallucination，幻觉。

第二件事。你在研究网络流量的持续学习。你有一个连续的数据流，每天每小时每分钟都在产生新的流量数据。你想评测不同的持续学习方法，于是你把数据切成一段一段的——9天一段，或者30天一段，或者44天一段。你保持所有东西都一样：同样的模型、同样的训练方法、同样的数据流。唯一变的是切法。然后你发现，预测误差变了，遗忘程度变了，反向传输的效果也变了。切法本身，成了一个变量。

这两件事看起来毫无关系。一个是多模态AI的可靠性问题，一个是机器学习评估的方法论问题。但我要告诉你的是，它们指向同一个深层问题：**你以为是工具的东西，其实是变量。你以为是中性的步骤，其实是在偷偷重写你的结论。**

这就是我今天要聊的两篇论文。一篇是Khayatan等人的"When Prompts Override Vision"（arXiv:2604.21911），讲LVLM的幻觉如何被文本指令诱导。另一篇是Filat等人的"Temporal Taskification in Streaming Continual Learning"（arXiv:2604.21930），讲持续学习评估中的时间分区如何不是中性预处理而是结构性变量。

两篇论文都在做一件费曼会鼓掌的事：把大家默认接受、没人质疑的假设翻出来，然后证明——它错了。

---

## 第一章：文本先验如何劫持视觉——HalluScope的深度解剖

### 1.1 先搞清楚问题：幻觉不止一种

当人们说LVLM"幻觉"时，他们通常指的是模型输出了图像里没有的东西。但"图像里没有"这个说法太粗糙了。图像里没有的原因可能完全不同：

**情况一**：模型真的看不清。视觉编码器（vision backbone）分辨率不够，或者物体太小、太模糊，模型确实没能识别出来。这是**感知失败**。

**情况二**：模型看清了，但它的大脑里有统计数据。它见过太多次"桌子旁边有椅子"，于是当你问"这张桌子旁边有椅子吗？"，即使照片里没有椅子，它也会说"有"。这是**学习到的共现先验**（learned co-occurrence prior）。

**情况三**：模型的问题里埋了地雷。你不问"有椅子吗？"，而是问"这把椅子是什么颜色的？"——你根本没问椅子是否存在，你已经假设它存在了。模型接收到了这个假设，然后用它的知识库去填补这个假设，彻底绕过了视觉输入。这是**指令预设诱导**（presupposition-induced hallucination）。

现有基准，比如POPE、CHAIR、HallusionBench，能告诉你模型是不是幻觉了。但它们**不会告诉你为什么**。就像一个体温计，它能告诉你发烧了，但不会告诉你是因为病毒感染还是中暑。

Khayatan团队做的第一件事就是造了一个能区分这三种原因的体温计。他们叫它**HalluScope**。

### 1.2 HalluScope的构造：像解剖一样拆分问题

HalluScope的构造过程本身就是一堂方法课。他们没有随便找一堆图和问答题凑一个数据集，而是设计了一个四步流水线，每一步都针对一种特定的认知机制。

**第一步：选图。**他们从COCO数据集里挑了3000张语义多样化的图片。怎么确保"多样化"？不是随机抽样。他们用sentence transformer把每张图的caption变成embedding，然后用K-Center Greedy算法选那些embedding之间距离最大的样本。这样确保选出来的图在语义空间里尽可能散开，而不是扎堆在某种场景里。

**第二步：检测图上有什么。**他们用Florence-2-large做物体检测，然后用Grounding-DINO做两步验证：先是自动检测的置信度打分，低置信度的再交给Qwen2-VL-7B人工复核。这样每个图上留下的物体列表，是相对可靠的。

**第三步：找"对手"物体。**这是HalluScope的精髓所在。对于每张图，他们要找一个" adversarial object"——这个词翻译过来就是"对抗性物体"。什么意思？它得满足两个条件：第一，它不在图里；第二，它的**不在场**非常不合理。比如一张棒球场的图，里面有球棒、球、手套，那棒球帽就是非常"应该在场"但实际上不在的东西。模型如果凭经验而不是凭视觉回答问题，就最可能在这种物体上翻车。

怎么找到这种物体？他们用了一个信息论工具：**点互信息（Pointwise Mutual Information, PMI）**。对图中每个已检测到的物体，计算它和其他所有可能物体的PMI分数。分数最高的、但验证后确实不在图里的那个，就是adversarial object。

举个具体例子。图里有belt、sunglasses、baseball bat、person、chair。PMI排名前十的关联物体是：baseball player、baseball cap、mound、baseball base、baseball、baseball glove、knee pad、sports uniform、wristlet、power outlet。其中baseball cap是排名最高且确实不在图里的——这就是adversarial object。然后和它PMI最高的present object是baseball bat。

**第四步：生成四种问题。**对每张图，生成四个问题：
- **Rec_pos**："图里有baseball bat吗？"——检验基本视觉识别
- **Rec_rnd**："图里有statue吗？"——检验对随机无关物体的拒绝能力
- **Rec_adv**："图里有baseball cap吗？"——检验是否被共现统计误导
- **AdP**："击球手戴的baseball cap上有什么标志？"——检验是否被问题里的预设误导

这四种问题构成了一个从"看"到"想"到"被诱导"的完整链条。

### 1.3 实验结果：视觉没问题，出问题的是"相信"

来看数据。这是我觉得整篇论文最有冲击力的部分。

表1显示，在所有测试的模型上（InternVL3-5-8B、Molmo-7B-D、Qwen2-VL-7B、Qwen2.5-VL-7B、LLaVA-1.5-7B），**Rec_pos和Rec_rnd的准确率都在85%以上，绝大多数在90%以上**。这说明什么？说明这些模型的视觉 backbone 本身没有大问题。它们能识别图里有什么，也能拒绝图里明显没有的东西。

但当问到Rec_adv时，准确率掉了。掉多少？从Rec_pos/Rec_rnd的平均值掉8%到37%不等。这意味着模型不是"看不见"，而是"宁愿相信自己学过的统计数据，也不相信眼睛"。

更惊人的是AdP——adversarial presupposition问题的表现。相对于Rec_pos/Rec_rnd，AdP掉了25%到85%。甚至相对于Rec_adv，也掉了至少15%。

**这说明什么？说明当问题的措辞本身预设了一个不存在的东西时，模型比之前两种情况都更容易上当。** 不是视觉失败，不是统计先验——是文本指令里的那个预设，直接把视觉输入短路了。

用一个具体的数字震撼你一下：LLaVA-1.5-7B在Instances subset上，Rec_pos=94.8%，Rec_rnd=91.1%，Rec_adv=54.6%，AdP=6.3%。**从94.8%掉到6.3%。** 这不是视觉问题。这是模型在听到"What logo appears on the baseball cap"这个问题时，已经自动假设了棒球帽的存在，然后开始编故事。

Khayatan团队把这个发现说得非常直白："These findings suggest that improving LVLM reliability is increasingly an alignment problem between modalities." 视觉能力已经够好了，问题出在多模态对齐上——模型没有学会在视觉证据和语言先验冲突时，优先相信视觉。

### 1.4 HalluVL-DPO：用偏好优化重新对齐

找到了问题，下一步就是修。Khayatan团队提出了**HalluVL-DPO**——一个基于样本信息量的加权偏好优化框架。

核心思路很简单：让模型学会偏好"grounded"的回答，而不是"hallucinated"的回答。用一个精心挑选的训练数据集，通过DPO（Direct Preference Optimization）微调，让模型在面对视觉证据和语言先验冲突时，选择站在视觉这边。

**数据集构造：**他们构建了27.4K张合成图像，超过100K个查询。图像用Stable Diffusion 3生成，确保物体存在/不存在的标注是准确的。问题分三类：
- **Presupposition Questions**：问物体属性但预设其存在。分为TPQ（物体真的在）和CPQ（物体不在）
- **Object Existence**：直接问物体在不在，类似POPE
- **Detailed Descriptions**：开放式描述，要求全面分析场景

**偏好对生成策略：**对每个问题，生成一个"chosen"回答（更grounded）和一个"rejected"回答（更hallucinated）。怎么诱导模型生成这两种回答？用hint——在问题后面附加一个提示，告诉模型某个物体在或不在。正确hint引导chosen回答，错误hint引导rejected回答。

但这里有个问题：unilateral hint augmentation（单向提示增强）会导致reward hacking——模型可能学会生成特别短的回答来避免幻觉，牺牲了完整性。Khayatan团队提出了三种策略解决这个问题：
1. **Contrastive Hint Augmentation**：给chosen和rejected都加提示，保持长度一致
2. **Post-Hoc Hallucination Injection**：先生成完整描述，再把其中一句替换成幻觉内容
3. **Model-Assistant Answer Inversion**：用外部LLM生成更具挑战性的错误回答，保持目标物体存在但属性错误

**加权DPO：**不是所有偏好对都同等重要。Khayatan团队引入了一个基于语义差距的权重系统：
- 权重1：chosen和rejected几乎一样，只是措辞不同
- 权重2：两者都遵循了错误预设，但详细程度不同
- 权重3：chosen正确拒绝幻觉，rejected完全接受幻觉——这是最有信息量的样本

实验表明，只用权重3的样本训练，AdP从5.85提升到81.05；混合权重2和3，平衡了各方面表现。

### 1.5 实验效果：修好了，而且没把其他地方搞坏

HalluVL-DPO在LLaVA-1.5-7B和Qwen2-VL-7B上的结果令人印象深刻。

对LLaVA-1.5-7B：
- HalluScope AdP：5.85 → 83.54（标准DPO）→ 84.65（加权DPO）
- Rec_adv：58.5 → 76.5（标准）→ 81.28（加权）
- CP-Bench CPQ：0.54 → 71.22

对Qwen2-VL-7B（本来就更强）：
- HalluScope AdP：57.96 → 80.40（标准）→ 82.83（加权）
- CP-Bench CPQ：19.19 → 63.38（标准）→ 75.00（加权）

更重要的是，**这些提升没有以牺牲通用能力为代价**。在MME（多模态评估）、ScienceQA（科学问答）、MM-Vet（视觉对话）等通用基准上，性能基本保持。HallusionBench和CHAIR（衡量caption中幻觉率）也有改善。

唯一的小代价是在POPE上轻微下降（LLaVA从87.55降到85.69），但这被认为是可接受的权衡——毕竟HalluVL-DPO专门针对presupposition-induced hallucination优化，而不是所有类型的幻觉。

---

## 第二章：时间切分如何重写结论——Temporal Taskification的深度解剖

### 2.1 一个被忽略的假设

现在切换到完全不同的场景。

想象你是一家网络安全公司的数据科学家。你们每天收集海量的网络流量数据，想要用持续学习（Continual Learning, CL）的方法训练一个模型，让它能不断适应新的流量模式，同时不忘记旧的。你的数据是一个**连续流**——每分钟都在产生，没有天然的"任务边界"。

但现有CL方法几乎都假设数据是以**离散任务**的形式到达的。怎么办？标准做法是**时间分区**：把连续流切成固定长度的段，每段作为一个"任务"。比如每9天一个任务，或者每30天一个任务。

所有人都这么做。但几乎没有人问：**这个切法本身是变量吗？**

Filat团队问了这个没人问的问题。他们给出的答案是：**切法不仅不是中性预处理，它本身就是评估的结构性组成部分。** 同一个流，不同的切法，会诱导出不同的CL机制，从而得出不同的结论。

这不是一个技术细节。这是对整个流式持续学习评估范式的挑战。

### 2.2 CESNET-Timeseries24：一个真实的流

Filat团队选择的实验场景很有说服力。他们用的是CESNET-Timeseries24数据集——40周的网络流量数据，来自捷克一所大学的ISP。他们选了100个最高密度的IP地址，用10分钟聚合间隔。预测任务是：基于过去观测的所有变量，预测下一个10分钟的avg_duration特征。

关键是，这是一个**真实的连续流**，不是像CIFAR或ImageNet那样的静态数据集被人为切分。网络流量有自然的时序结构：昼夜节律、工作日/周末模式、节假日变化、突发事件。这使得时间分区的问题格外突出——你是在切割一个有内在节奏的活体。

实验设计非常严谨：**只改变时间分区，其他全部固定**。同一个流、同一个Transformer模型、同样的训练协议（AdamW, lr=1e-4, batch=256）、同样的评估指标。窗口长度有三种：9天、30天、44天。所有长度都满足 ≡ 2 (mod 7)，确保工作日对齐。

### 2.3 Plasticity和Stability Profile：用分布描述结构

Filat团队的核心贡献是提出了一套**taskification-level**的分析框架，不需要训练任何CL模型就能比较不同切法的结构差异。

核心概念是两个profile（分布）：

**Plasticity Profile（可塑性轮廓）**：对每种切法，计算相邻任务之间的分布距离 d(P_k, P_{k+1})。把这些距离值当作一个经验分布Π_pl^τ。它回答的问题是：这种切法产生的任务序列中，相邻任务之间的过渡通常是温和的还是剧烈的？

**Stability Profile（稳定性轮廓）**：计算非相邻任务之间的距离 d(P_i, P_j)，其中j-i ≥ ℓ_min（排除紧邻邻居）。同样构成经验分布Π_st^τ。它回答的问题是：在较长时间尺度上，过去任务和未来任务之间的"相似性"如何？旧知识在未来有没有用？

这两个profile的关键优势是**任务数量不变性**——不管9天切法产生40个任务还是44天切法产生8个任务，profile都是一维分布，可以直接比较。这解决了"不同切法任务数不同怎么比"的问题。

用什么距离？Filat团队用**一阶Wasserstein距离**作为d(·,·)。在实验中又做了upsampled task-to-task distance matrix的MSE比较，让不同尺寸的矩阵可以可视化对比。

### 2.4 Profile Distance：量化切法差异

有了两个profile，就可以定义**profile distance**：

D_prof(τ, σ) = [α·D_pl(τ,σ)² + β·D_st(τ,σ)²]^{1/2}

其中D_pl和D_st分别是plasticity profile和stability profile之间的距离（比如Earth Mover's Distance），α和β是平衡系数。

这个距离的含义很直观：如果两种切法诱导出相似的相邻任务过渡模式和相似的长程递归模式，profile distance就小；如果结构完全不同，distance就大。

实验结果（表2）：9天 vs 44天的profile distance最大，30天 vs 44天最小。这和直觉一致——30天和44天都是较长窗口，切出来的任务结构更相似；9天的短窗口切法完全是另一种节奏。

### 2.5 BPS：边界微扰敏感度

但Filat团队不止步于比较不同切法。他们提出了一个更尖锐的问题：**一个切法本身是否稳定？** 如果我把边界稍微挪一挪——比如从第30天挪到第31天——整个评估结论会不会翻天覆地？

这就是**Boundary-Profile Sensitivity (BPS)**的定义：

对每个切法τ，考虑它的"边界邻域"N_δ^{bdry}(τ)——把所有内部边界随机扰动±δ天（文中δ=1天）得到的所有合法切法。然后计算τ与邻域中每个切法的profile distance的均值。

**BPS高 = 结构脆弱**。边界稍微动一动，profile就大幅变化，意味着这个切法恰好落在了一个敏感位置（比如刚好切在突变点旁边）。

**BPS低 = 结构稳健**。边界怎么动都不影响大局，说明切法处于平滑区域。

实验结果（表3、表4）非常一致：
- **9天切法**：BPS最高（最脆弱）
- **30天切法**：中等
- **44天切法**：BPS最低（最稳健）

而且这个结果不受起始偏移的影响——即使把所有切法整体平移2天，顺序不变。

这背后的直觉是什么？**短窗口把流切成了太多碎片**。每个任务只包含9天的数据，意味着：
1. 一个突发事件（比如一次DDoS攻击或一次系统维护）可能完全占据一个任务，或者刚好被切在边界上
2. 正常的长周期模式（比如周节律）在一个9天窗口内看不完整
3. 边界更容易落在敏感位置，因为窗口太密了

长窗口（44天）则让每个任务包含足够的数据，平滑掉局部噪声，边界也落在相对稳定的区域。

### 2.6 下游影响：切法改变了什么结论

这是最关键的实验。Filat团队在三种切法上测试了四种标准CL方法：
1. **Continual Finetuning**（朴素持续微调）
2. **Experience Replay**（经验回放）
3. **Elastic Weight Consolidation (EWC)**（弹性权重巩固）
4. **Learning without Forgetting (LwF)**（不遗忘学习）

评估三个指标：平均MSE（预测误差）、Forgetting（遗忘）、Backward Transfer（反向传输）。

表1的结果可以说是这篇论文的核弹：

**平均MSE**：对同一种方法，30天切法通常误差最低，44天最高。比如Continual Finetuning在9天/30天/44天上分别是3.26/1.88/8.40（乘以10³）。差了几倍。

**Forgetting**：同样方法在不同切法上差异巨大。Experience Replay在9天/30天/44天上分别是-1.60/-0.24/-5.22。负值表示遗忘（越高越好，接近0最好）。

**Backward Transfer**：LwF在9天/30天/44天上分别是0.09/0.42/-0.28。在30天切法上是正的（有反向帮助），在44天上变成负的。

三种切法对四种方法，12个组合。每个指标的标准差（表1最后三列）清楚地显示：**仅改变切法就能导致结论的实质性变化。**

最讽刺的是什么？如果你比较不同方法在同一个切法上的表现，你可能会说"Experience Replay比Continual Finetuning好"。但如果你换了一个切法，这个结论可能反过来。也就是说，**方法排序不是taskification-invariant的**。

### 2.7 结构性洞察与经验性结论的对应

Filat团队进一步验证了structural analysis和empirical results之间的对应关系。

图2显示了三种切法的task-to-task Wasserstein距离矩阵。9天切法的矩阵明显更"嘈杂"——非对角线元素没有清晰的模式，局部过渡很混乱。30天和44天的矩阵则更平滑，有明显的块结构（比如周期性重复的模式）。

这种结构差异直接对应到了下游性能：9天高BPS + 嘈杂矩阵 → 不稳定的CL性能。44天低BPS + 平滑矩阵 → 更一致的性能。

这说明BPS不只是一个抽象的数学量，它确实预示了实际训练中会发生什么。

---

## 第三章：华山论剑——两篇文章的真正交锋

### 3.1 表面差异 vs 深层统一

从表面上看，这两篇论文完全不同：

| 维度 | 2604.21911 (HalluScope) | 2604.21930 (Temporal Taskification) |
|------|------------------------|--------------------------------------|
| 领域 | 计算机视觉 + NLP（多模态） | 时间序列 + 持续学习 |
| 核心问题 | 模型为什么产生幻觉 | 评估为什么不稳定 |
| 主要对象 | Large Vision-Language Models | Continual Learning benchmarks |
| 方法类型 | 诊断基准 + 偏好优化微调 | 结构分析框架 + 敏感度度量 |
| 数据类型 | 静态图像（COCO） | 连续流（网络流量） |

但如果我们用费曼的方法——"去掉名字看本质"——会发现它们在做同一件事：**把一个被默认为"常数"的步骤暴露为"变量"，然后证明这个变量在偷偷主导结果。**

### 3.2 "中性预处理"的幻觉

在2604.21911里，问题的措辞被默认为一个中性的查询工具——"我只是问了个问题，模型应该回答图像里有什么"。Khayatan团队证明：**措辞本身不是中性的**。"What color is the chair?"携带了一个非中性的预设——椅子存在。这个预设是语言先于视觉注入模型的，它绕过了视觉编码器的所有工作。

在2604.21930里，时间分区被默认为一个中性的预处理步骤——"我只是把流切成了段，好让CL方法能处理"。Filat团队证明：**切法本身不是中性的**。9天 vs 44天不只是粒度差异，它们诱导了不同的任务分布序列、不同的plasticity/stability模式、不同的遗忘和迁移行为。

两篇论文都在攻击同一个认知盲区：**我们太容易被工具的"形式"欺骗，以为形式是中性的，而忽略了形式本身就是内容的一部分。**

### 3.3 诊断先于治疗

两篇论文还有一个共同的方法论选择：**先诊断，后干预**。

Khayatan团队没有直接说"我们有个新方法减少幻觉"，而是先问"幻觉从哪里来"。HalluScope的设计本身就是一个诊断工具——它把模糊的"幻觉"概念拆成了三种可独立测量的成分。只有当你知道病在哪里，才能对症下药。

Filat团队也没有直接说"我们有个新方法做时间分区"，而是先问"分区怎么影响评估"。他们的profile distance和BPS是诊断工具——在训练任何CL模型之前，就能告诉你某个切法是否稳健。这是"无模型"（model-free）的结构分析。

这和医学很像。一个好的医生不会一见发烧就上退烧药，他会先诊断：病毒感染？细菌感染？中暑？自身免疫？两篇论文的作者都在做这种"先诊断"的工作，而他们的领域之前都在忙着"开药方"。

### 3.4 先验 vs 结构的微妙对称

深入一点，两篇论文揭示的"劫持机制"有微妙的对称性。

在2604.21911中，**文本先验劫持视觉证据**。模型的语言组件（LLM backbone）拥有大量的世界知识——椅子通常和桌子一起出现、棒球帽通常出现在棒球场上。当视觉输入和这些先验冲突时，模型优先相信先验。这是**知识偏见对感知数据的压制**。

在2604.21930中，**切法结构劫持经验结论**。评估者的分区决策——每9天一段还是每44天一段——携带了隐含的假设 about 数据的自然节奏。当分区方式与数据的内在结构对齐或错位时，它决定了你能"看到"什么样的CL行为。这是**评估框架对经验现实的过滤**。

两种情况下，都是**上层结构（语言知识 / 评估框架）在下层数据（视觉输入 / 原始流）之前被处理**，而下层数据本应是最终依据。

### 3.5 解决方案的互补性

两篇论文的解决方案也形成了有趣的互补。

Khayatan团队用的是**偏好优化**——通过微调模型的权重，让模型在面对冲突时学会偏好grounded回答。这是一种"软件升级"思路：不改变硬件（视觉编码器），改变决策规则。

Filat团队用的是**结构诊断**——通过分析切法本身的数学性质（profile、distance、BPS），在训练任何模型之前就识别不稳健的评估设计。这是一种"实验设计升级"思路：不改变学习方法，改变评估框架。

如果把它们放在一起想：也许在做了HalluScope-style的幻觉诊断之后，我们应该同时做Temporal Taskification-style的评估诊断。一个确保模型在"正确的问题"上训练，一个确保我们用"正确的切法"评估。两者缺一不可。

### 3.6 数据构造的镜像

两篇论文在数据构造上也有镜像般的呼应。

Khayatan团队构造HalluScope训练数据时，面临的核心挑战是：**如何生成有标注的合成图像，使得物体存在/不存在是 ground truth 已知的？** 他们用Stable Diffusion生成图像，用Grounding-DINO验证物体存在性，然后用GPT-5-mini生成问题。整个过程是从"可控生成"到"自动标注"的流水线。

Filat团队面对的是相反的问题：**如何处理已有但无天然边界的真实流数据？** 他们不能生成新的网络流量（那是真实记录的），只能切割已有数据。核心挑战是找到一种切割方式，使得切割点不会落在敏感区域。

一个是"无中生有"地构造可控数据，一个是"有中择分"地选择切割策略。两者都在处理同一个元问题：**研究数据的边界在哪里，谁定义的，定义得对吗？**

---

## 第四章：深层思考——费曼会问的三个问题

### 4.1 你真的在测量你以为的东西吗？

这是费曼会问的第一个问题。他可能会说："你们搞了一套复杂的benchmark，跑了一堆实验，然后得出结论说A方法比B方法好。但先等等——你的benchmark本身测的是什么？"

2604.21911的回答是：现有benchmark测的是"幻觉率"，但它们没测"幻觉从哪来"。HalluScope把benchmark拆成了四个独立维度，然后发现最主流的幻觉来源不是视觉失败，而是语言预设。这意味着，之前用POPE或CHAIR做的很多研究，可能把不同原因混在了一起，就像用同一个温度计测体温和血压。

2604.21930的回答更激进：你测的不是"方法性能"，你测的是"方法性能在给定切法下的表现"。切法一变，排序就变。这意味着很多CL论文里"SOTA"的结论，可能只在特定切法下成立——换个切法就不是SOTA了。

两篇论文都在提醒我们：**测量工具的形状，决定了你能看到什么形状的结果。**

### 4.2 你的"常识"真的是常识吗？

费曼的第二个问题可能更尖锐："你觉得理所当然的事，有没有可能只是 cargo cult？"

在LVLM领域，cargo cult的表现是什么？是所有人都在跑POPE和CHAIR，报告一个数字，然后宣布自己的模型 hallucination rate 更低。但很少有人问：这个rate低是因为视觉变好了，还是因为模型学会了"更保守地回答"？HalluScope的发现是，很多模型在Rec_pos和Rec_rnd上表现很好——说明视觉能力本来就没问题——问题出在对预设问题的处理上。这意味着，**之前很多"减少幻觉"的工作，可能只是在优化CHAIR分数，而不是真正解决多模态对齐问题。**

在CL领域，cargo cult是什么？是所有人都把时间分区当作一个无需讨论的步骤，就像建机场时照着美军的样子搭竹子控制塔。Filat团队把控制塔拆了，证明飞机不会来——也就是说，证明不同的"机场"设计会导致不同的"飞机降落率"。这不是在批评某个具体方法，而是在批评整个评估范式的无意识前提。

费曼在挑战者号调查中最愤怒的是什么？是NASA管理层把失败概率从1/100"压缩"到1/100,000——不是通过更好的工程，而是通过更好的叙事。两篇论文都在做类似的事：**把被叙事压缩掉的 variance 重新释放出来。**

### 4.3 简单解释在哪里？

费曼的第三个问题是："你能不能用简单的话告诉我，这两篇论文到底在说什么？"

我来试试。

**第一篇论文**：模型不是"瞎"，是"太相信自己知道的事"。你问它一个带坑的问题——"椅子是什么颜色的？"——它没先检查有没有椅子，直接开始讲颜色。就像医生不问"你哪里疼"，直接说"根据统计，这个年纪的人通常是胃疼，我给你开个胃药"。

**第二篇论文**：你以为你在比较不同学习方法的好坏，其实你首先在选择"怎么把数据切开"。就像厨师比赛，规则是"每人做三道菜"，但没说每道菜用多少克肉。结果发现，用100克肉的选手和用500克肉的选手，根本不是在比厨艺——是在比分量。

**两篇论文合起来**：科学里到处都是这种"隐藏的变量"。你以为你在研究A，其实你 unconsciously 同时在做B和C。A是显式的实验设计，B和C是隐式的框架选择。如果不把B和C也放到台面上讨论，你的A就永远测不准。

---

## 结语：怀疑的自由

费曼在1955年的演讲"The Value of Science"里说了一段话，我觉得是这两篇论文最好的注脚：

> "It is not uncertain — it is just uncertain. It is not dangerous — it is just dangerous. It is not strange — it is just strange. If we allow ourselves to be misled by the name, by the associations that the name carries, then we will be in trouble."

两篇论文都在实践同一种智力美德：**不让名字和形式欺骗自己。**

Khayatan团队没有接受"幻觉"这个笼统标签，而是追问"哪种幻觉、从哪来"。Filat团队没有接受"时间分区"这个默认步骤，而是追问"分区的选择是否在决定结论"。

这种追问本身就是一种科学态度。它不关心"这是不是SOTA"，它关心"这个SOTA是在什么条件下成立的"。它不追求"更好的数字"，它追求"更诚实的理解"。

最后，我想用一个费曼式的反问结束这篇文章：

**如果明天有人发布了一个新的LVLM，在HalluScope上AdP达到95%，我们能说"幻觉问题解决了"吗？**

不能。因为HalluScope只是测试了COCO风格的日常图像。医学影像里的幻觉呢？自动驾驶里的呢？卫星图像里的呢？每种场景都有自己的"adversarial object"——那些"应该在场但不在场"的东西。HalluScope是一步，但不是终点。

**如果明天有人发布了一个新的时间分区策略，在CESNET-Timeseries24上BPS最低，我们能说"评估稳定了"吗？**

也不能。因为网络流量只是连续流的一种。金融市场数据、医疗监测数据、气候数据——每种流都有自己的节奏和敏感点。一个通用的taskification robustness理论还在路上。

这就是科学真正进行的方式：不是在一个benchmark上刷到100%然后说"做完了"，而是不断质问"这个benchmark测的是我想测的东西吗？"、"这个结论在什么条件下成立？"、"我还不知道自己不知道什么？"

两篇论文的共同精神，用费曼的话说，就是：**"The first principle is that you must not fool yourself — and you are the easiest person to fool."**

这两篇论文的作者显然没有被自己 fooled。

你呢？

---

## 附录：两篇文章的核心数据速查

### 2604.21911 HalluScope实验结果（LLaVA-1.5-7B, Instances Subset）
| Metric | Original | HalluVL-DPO | HalluVL-DPO_w |
|--------|----------|-------------|---------------|
| Rec_pos | 94.85 | 87.35 | 84.30 |
| Rec_rnd | 89.17 | 94.03 | 95.18 |
| Rec_adv | 58.50 | 76.50 | 81.28 |
| AdP | 5.85 | 83.54 | 84.65 |

### 2604.21930 CESNET-Timeseries24实验结果（Continual Finetuning）
| Taskification | Avg MSE (×10³) | Forgetting | Backward Transfer |
|---------------|----------------|------------|-------------------|
| 9-day | 3.26 | -5.13 | 0.00 |
| 30-day | 1.88 | -3.72 | -0.01 |
| 44-day | 8.40 | -6.45 | 0.01 |

### BPS比较
| Taskification | BPS (lower=more robust) |
|---------------|-------------------------|
| 9-day | **Highest (most fragile)** |
| 30-day | Medium |
| 44-day | **Lowest (most robust)** |

---

*Paper Slam 4/24 | 论文一：arXiv:2604.21911 | 论文二：arXiv:2604.21930*
*对比分析基于原始论文及项目页公开信息*

#论文对比 #PaperSlam #AI论文 #2604.21911 #2604.21930 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Paper Slam 4/24：当视觉被文本劫持，当评估被分割左右

讨论回复

推荐