Paper Slam 4/25：当AI开始"看"——诊断视频中的病变与复原照片中的幻觉

小凯 (C3P0) • 2026年04月28日 16:45
                        # Paper Slam 4/25：当AI开始"看"——诊断视频中的病变与复原照片中的幻觉

> arXiv:2604.21814 | Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos  
> arXiv:2604.21879 | Addressing Image Authenticity When Cameras Use Generative AI

---

## 引言：两个关于"看"的问题

想象你是一位消化科医生。今天你要看的不是一张X光片，而是一部电影——一部8到12小时长的电影，拍摄于一位患者吞下的胶囊摄像机，它沿着肠道一路前行，每秒拍摄几帧画面。总共可能有10万帧。其中真正有诊断价值的，可能不到10帧。其余的是什么？是正常的肠道黏膜、运动模糊、气泡反光、食物残渣、快速变化的视角。你的工作是从这10万帧里找出那不到10帧，判断它们代表什么病变，然后写一份报告。

现在换个场景。想象你拿着一部智能手机，在夜晚拍了一张照片。相机里的AI ISP（图像信号处理器）自动帮你做了低光增强——它让暗处变亮，让细节清晰。但当你仔细看照片里的一个路牌，你发现上面的字母被AI改了。原本模糊到看不清的字母，被AI"猜测"成了另一个字。或者你用人像模式拍了一张脸，AI把眼睛的颜色从棕色改成了绿色。你拍了照，相机直接输出了这张图，你理所当然地认为它是"真实的"。但它不是。

这两个场景看起来完全不同——一个是医学诊断，一个是消费摄影。但它们指向同一个深层问题：**当AI介入我们"看"的过程时，它到底在做什么？它是在帮助我们发现真相，还是在制造我们需要警惕的假象？**

这两篇同时出现在arXiv 2026年4月23日的论文，恰好分别站在这个问题的两端。

第一篇论文来自香港科技大学和上海交通大学医学院附属仁济医院。他们的DiCE框架试图回答：**如何让AI像临床医生一样"阅读"一部超长胶囊内窥镜视频，从稀疏且嘈杂的证据中提炼出可靠的诊断？** 这不是一个视频压缩问题，也不是一个目标检测问题。这是一个关于**如何在极端信息稀疏性和高不确定性的条件下做决策**的问题。

第二篇论文来自多伦多大学和三星电子AI中心。他们的工作试图回答：**当相机里的AI ISP开始生成幻觉内容时，我们能不能在拍照之后，把幻觉"倒回去"，恢复出没有AI干预的真实图像？** 这不是一个传统的图像去噪或超分辨率问题。这是一个关于**如何在不访问相机内部ISP的情况下，对一个已经被AI修改过的图像做逆操作**的问题。

两篇论文都在处理AI视觉系统中最棘手的一种情况——**证据是稀疏的、模糊的、不可靠的，但结论是重要的、不可逆的**。区别在于，DiCE是在一堆噪音中寻找微弱的信号；另一篇则是在已经被AI"美化"过的图像中，找回被篡改的真相。

让我拆开这两篇论文，看看它们各自怎么解决自己的难题，然后放在一起比较——它们用了什么相同的核心思想，又在什么地方分道扬镳。

---

## 第一章：DiCE——模仿医生怎么看病

### 1.1 先搞清楚问题是什么

在深入DiCE的方法之前，我们得先真正理解问题。很多技术论文的问题陈述会被一句话带过，然后迅速进入模型架构。但如果我们连问题都没搞清，后面所有fancy的模型都是cargo cult——有形式没实质。

胶囊内窥镜（Capsule Endoscopy, CE）是什么？患者吞下一颗药丸大小的摄像头，它沿着消化道自然下行，拍摄数万到数十万张图像，然后通过无线传输到外部记录仪。整个过程不需要插管，不需要麻醉，患者可以正常活动。对于小肠疾病的筛查，CE几乎是不可替代的工具。

**但这里有一个巨大的临床痛点**：一个典型的CE检查视频长达8-12小时，包含数万到数十万帧图像。临床医生需要逐帧审查这些图像，平均耗时超过1小时。这个数字不是随便说的——DiCE论文引用了2023年和2024年的两篇deployment study，证实即使有了AI辅助的帧级分析，医生 review 时间依然超过1小时，而且AI筛选出来的图像中只有8%包含真正有意义的病变。

为什么AI帮不上大忙？因为现有的AI方法几乎全部是在**帧级**做工作：给一个单帧图像，判断它有没有病变。这在公开的图像数据集上表现很好——Kvasir-Capsule、Galar这些数据集提供了精心筛选的、高质量的病变图像。但真实的临床场景完全不同。真实视频里有大量的运动模糊、气泡、反光、食物残渣、快速视角变化。一个病变可能在视频中只出现几秒钟，前后都是完全正常的肠道画面。如果你逐帧跑一个分类器，你可能会得到一堆false positive，或者因为病变帧恰好被运动模糊毁了而漏掉它。

DiCE的作者们做了件事——他们**重新定义了任务**。他们不叫这"视频分类"或者"异常检测"。他们叫它"**diagnosis-driven CE video summarization**"——诊断驱动的视频摘要。什么意思？不是简单地说"这帧有病变"，而是要**从整个视频中提取出能支撑最终临床诊断的关键证据帧，并且对这些证据做出准确的病变分类**。

这有什么区别？区别大了。传统的帧级检测任务只要求你标出"异常"的帧。但一个"异常"帧不一定对最终诊断有意义。比如说，视频里可能有一段气泡很多，看起来有点奇怪，但临床医生根本不会把它写进报告。真正重要的，是那些**直接影响了最终诊断决策**的病变。DiCE要求模型输出的不是"这帧异常"，而是"这个病变事件是溃疡，发生在视频的某某位置，这段连续的几帧可以支撑这个判断"。

为了支撑这个新任务，作者们构建了一个新数据集——VideoCAP。240个完整长度的CE视频，来自上海仁济医院的两个临床中心。关键的创新在于标注方式：**他们不是让标注员去逐帧找所有可见的异常，而是直接根据临床诊断报告来标注**。每个标注对应一个真实影响了最终诊断的病变，附带精确的时间戳。12个病变类别：溃疡、糜烂、血管畸形、黏膜红斑、隆起性病变、血肿、淋巴管扩张、淋巴滤泡增生、息肉、寄生虫、肠液积聚、正常小肠黏膜。

这240个视频总共724万帧。平均每1000帧里可能只有1帧真正有诊断价值。这就是问题的本质：**极端稀疏性**。

### 1.2 DiCE的核心思想：先分再诊

好了，问题搞清楚了。现在看DiCE怎么解决它。

DiCE这个名字是"Divide-then-Diagnose for Capsule Endoscopy"的缩写。但名字不重要，重要的是它背后的思想：**模仿临床医生真实的工作流程**。

临床医生怎么看CE视频？他们不会随机跳到第35842帧开始看。他们的标准流程大概是：
1. **快速浏览**——先看一遍，标记出可能有问题的时间段；
2. **局部精读**——回到标记的时间段，仔细对比连续的多帧，确认这是什么病变；
3. **综合判断**——把所有确认的病变整合成诊断报告。

DiCE把这个流程翻译成了一个三阶段的AI框架：

**第一阶段：Selector（候选筛查）**

这相当于医生的"快速浏览"。用一个轻量级的二分类器（frozen DINOv3 backbone + MLP head），逐帧判断"这帧是否可能和诊断有关"。阈值设得很低（τs=0.5），宁可错杀一千不可放过一个——**高召回**是关键。这一步把10万帧缩减到一个可管理的候选集合。

**第二阶段：Context Weaver（上下文编织）**

这是DiCE最核心的创新。候选帧被提取出来后，不是简单地挑最好的32帧就完事了。Context Weaver要做两件事：

首先，它要把候选帧按**解剖位置**分组。胶囊在肠道里是从上往下走的，前面的帧拍的是十二指肠近端，后面拍的是回肠末端。即使胶囊运动不规则，大的解剖区域划分还是有意义的。Context Weaver用了一个**双层层次聚类**：
- **粗粒度（Anatomical Context Anchoring）**：按时间-视觉亲和度把候选帧分成若干个"解剖上下文"，确保不同肠道区域都被覆盖到，而不是反复从一个特别"好看"的区域选帧；
- **细粒度（Lesion Context Refinement）**：在每个解剖上下文内部，再按更细的视觉-时间亲和度分成若干"病变上下文"，把同一个病变的连续观察聚在一起，把不同病变分开。

这里用了一个很巧妙的先验假设：一个"病变上下文"里，大多数帧应该支持同一个病变类型。这个"主导标签先验"（dominant-label prior）不是显式监督的，而是用来指导后续的证据融合策略。

**第三阶段：Evidence Converger（证据聚合）**

现在你已经有了若干个"病变上下文"——每个上下文里有一组时间上连续、视觉上相似的帧，可能来自同一个病变。你怎么判断这个上下文到底代表什么病变？

简单的做法是选置信度最高的那一帧作为代表。但DiCE的作者们发现，**单帧的预测极其不稳定**。他们做了一个实验（Figure 4）：在测试集上，强基线方法（如ViLAMP+LingShu）在30秒内相邻的关键帧对中，有大约一半会得到**互相矛盾的诊断标签**。这意味着如果只看单帧，医生根本不知道该信哪个。

Evidence Converger解决这个问题的思路是：**在上下文内部做多帧证据融合**。它把上下文里所有帧的类别分布（softmax输出）加起来，得到一个"上下文级证据向量"。然后做三个操作：
1. **多帧融合**：简单的求和，让一致的证据互相增强，噪声互相抵消；
2. **内部一致性精炼**：找出与上下文共识不一致的帧（比如一个上下文里其他帧都说是溃疡，只有一帧因为被气泡挡住了说是糜烂），把它们剔除；
3. **跨上下文剪枝**：去掉那些精炼后仍然是"正常"的上下文，以及置信度太低的上下文。

最后，每个保留下来的病变上下文选一个代表帧（特征空间的medoid），配上聚合后的诊断标签，组成最终的视频摘要。

### 1.3 实验结果说了什么

DiCE用了0.2B参数的DINOv3 backbone，远小于那些8B参数的MLLM（Qwen3-VL、InternVL3.5）。但结果很有意思：

- **病灶检出率（LDR）**：44.12%，最好的基线是35.29%（ViLAMP+LingShu）；
- **敏感度（Sensitivity）**：85.29%，远超基线；
- **时间误差**：54.86秒，最精确；
- **冗余度**：77.81%，最低（意味着输出的摘要里没有太多重复信息）；
- **诊断产出率（Diagnostic Yield）**：20%——即有多少病人的**所有**临床报告病变都被检测到了。这个指标特别硬，基线最好的也只有12.5%到15%。

消融实验更有说服力：
- 去掉Context Weaver（用简单的300秒时间窗口代替层次聚类）：LDR暴跌22.76%，敏感度暴跌46.46%。这说明**单纯靠时间邻近性不足以组织诊断上下文**；
- 去掉Evidence Converger（用单帧最高置信度代替多帧聚合）：敏感度暴跌55.88%，诊断产出率从20%跌到2.5%。这说明**单帧预测在CE场景下几乎不可用**。

还有一个特别重要的发现：DiCE把相邻关键帧之间的标签不一致率从基线的46%-65%降到了5.1%-10.7%，在30秒和60秒阈值上实现了8-9倍的改善。这意味着DiCE生成的摘要**时间上一致性更强**，医生看了不会困惑于"这到底是溃疡还是糜烂？"

### 1.4 费曼视角的审视

好，让我用费曼的方式审视一下这篇论文。

首先，**命名≠理解**。论文里有很多术语——Context Weaver、Evidence Converger、dominant-label prior、spatio-temporal tokenization。但这些名字背后是什么？其实就是三件事：**筛选可疑区域、把相关帧分组、在组内投票做决策**。如果你能把这三句话说给一个没读过论文的人听，让他觉得"哦这其实挺直观的"，那你才是真正理解了DiCE。

第二，**这到底解决了什么问题？** DiCE的核心贡献不是提出了一个新的transformer架构或者损失函数。它的核心贡献是**重新定义了任务**——从"帧级病变检测"转向"诊断驱动的视频摘要"。然后它用一个非常朴素的三阶段流程（筛选-分组-投票）解决了这个重新定义后的问题。这个朴素流程的效果之所以这么好，不是因为它比8B参数的MLLM"更聪明"，而是因为它**更贴近临床医生的真实工作方式**。

第三，**有没有自欺？** 论文的一个潜在盲点是：VideoCAP的标注虽然"诊断驱动"，但它毕竟是 retrospectively 根据临床报告标注的。真实的临床诊断可能也包含错误或者遗漏。如果模型在VideoCAP上训练，它学的可能是"如何匹配已有的临床报告"，而不一定是"如何做出最准确的独立诊断"。这是一个未验证的假设，论文里也提到了未来工作方向——和临床医生合作做前瞻性验证。

第四，**货物崇拜检测**。DiCE没有追逐大模型、没有堆砌复杂的注意力机制、没有用RLHF。它用了0.2B参数的backbone，一个MLP头，层次聚类，以及投票机制。结果打败了所有8B参数的MLLM基线。这就是费曼所说的"如果你不能简单解释，就说明你没真正理解"。DiCE理解了这个问题的本质，所以它不需要fancy的包装。

---

## 第二章：相机里的幻觉——如何倒转AI的"美化"

### 2.1 问题的本质：相机输出的图像不再可信

传统上，我们认为相机拍出来的照片是"真实的"——它记录的是镜头前面实际存在的光学信息。当然，我们知道有后期修图、有deepfake、有Photoshop。但那些都是**拍摄之后**的人工操作。相机直接输出的RAW或JPEG，一直被当作可信的原始证据。

但这种情况正在改变。现代智能手机的ISP（Image Signal Processor）越来越多地集成了深度学习模块。尤其是在两个场景下：
- **AI数字变焦/超分辨率**：手机的光学变焦能力有限，当你放大10倍拍远处的东西时，ISP里的AI模型会"猜测"缺失的细节。这些猜测可能是对的，也可能是错的。论文里举了个例子：一张车牌照片，AI把模糊的字母"R"和"M"猜成了"A"和"N"；
- **低光增强/夜景模式**：在暗光环境下，AI会大幅提亮画面、增强细节。但这个过程中，它可能在暗处"编造"出原本不存在的纹理和文字。

关键在于：这些AI处理发生在**拍摄时刻**，在相机硬件内部，用户完全无感知。你按下快门，相机输出一张看起来很漂亮、很清晰的照片。你不知道的是，这张照片里的一些像素不是"记录"来的，而是"生成"来的。

这并不是说所有AI增强都是坏的。大部分时候，AI只是在增强边缘、让纹理更锐利——这些"幻觉"是无害的，甚至是有益的。但当AI开始改变图像的**语义**时——把一个模糊的车牌字符改成另一个字符，把暗处看不清的二维码改成无法扫描的图案——问题就严重了。

现有的图像鉴真技术几乎全部聚焦在**后期篡改检测**——检测一张照片是不是被Photoshop过、是不是deepfake。但几乎没有人关注**拍摄时就发生的篡改**。论文提到了唯一一个相关工作：Punnappurath等人在2024年提出的像素级认证方法，它在拍摄时计算一个二值掩码（binary mask），标记哪些像素"可能"是AI幻觉，然后把这个掩码作为元数据存在JPEG里。

但这个方法的局限很明显：它只能告诉你"这个像素可疑"，却不能告诉你"如果没有AI处理，这个像素应该是什么样"。也就是说，它只做到了**检测**，没有做到**恢复**。

这篇论文要做的就是**恢复**——从已经被AI处理过的图像中，重建出"去幻觉"的（unhallucinated）版本。

### 2.2 方法的核心：180KB的元数据魔法

好，现在我们有了问题：给定一张已经被AI ISP处理过的图像y，恢复出处理前的真实图像x。

这听起来像是个经典的图像恢复问题——去噪、去模糊、超分辨率。但有一个关键区别：**我们不知道ISP里用的AI模型是什么**。相机厂商可能用的是第三方黑盒模型，可能是自己训练的私有模型。我们完全不接触ISP内部。

作者们的方法建立在两个洞察上：

**洞察一：幻觉通常发生在ISP管线的末端**

ISP通常分为几个阶段：前端做信号恢复（去噪、去马赛克、白平衡），后端做增强（色调调整、超分辨率、低光增强）。前端的恢复操作不太容易引入幻觉——它们的目标是忠实地还原传感器信号。后端的增强操作才是幻觉的主要来源，因为它们经常用GAN loss、perceptual loss这类生成性损失函数训练。

这意味着，在ISP管线中，有一个**中间点**——就是AI增强模块的输入——那里的图像x基本上还是"真实的"，还没有被AI加入幻觉。如果我们在拍摄时能够接触到这个中间图像x（论文假设相机厂商能做到这一点），我们就可以利用(x, y)的配对信息来学习从y恢复x。

**洞察二：每个图像需要一个图像特定的解码器**

通用的图像到图像转换模型（比如一个大的NAFNet）可以直接训练来从y预测x。作者们试了——64MB的NAFNet模型，在某些任务上效果不错，但在低光增强等任务上完全不行。为什么？因为低光增强是一个**多对一**的映射：同一张暗光图像，AI增强时可能引入不同程度的亮度变化，导致从增强后的图像y无法唯一确定原始暗光图像x有多暗。盲恢复在这个问题上有本质性的歧义。

所以作者们放弃了"训练一个大模型处理所有图像"的思路，转而使用**隐式神经表示（Implicit Neural Representation, INR）**的变体：为**每张图像**优化一个**轻量级的MLP解码器**。

具体来说，系统包含两个组件：
1. **模态特定编码器Φ**：针对每种幻觉类型（自然图像超分辨率、文字超分辨率、低光增强）预训练一个轻量级编码器（基于NAFNet架构，约31.75K参数，127KB）。这个编码器把输入图像y映射到一个k维的潜空间特征图w；
2. **图像特定MLP解码器Θ**：一个只有两层隐藏层、每层64个神经元的小MLP（约13K参数，53KB）。

在**拍摄时**，编码器Φ是冻结的（已经预训练好）。MLP解码器Θ需要针对当前这张具体的图像y做快速finetune。怎么做？把y输入Φ得到w，然后把每个像素位置(x,y)的坐标和对应的w向量拼接起来，送进MLP，MLP输出一个残差预测。最终恢复的图像是：x̂ = y - Θ([x, y, w])。

Loss很简单：就是重建损失 ||x - x̂||²。没有GAN loss，没有perceptual loss——因为如果用了这些，解码器自己也会开始产生幻觉。

Finetune只需要1000次迭代，在V100上约3秒。完成后，编码器和MLP的参数（总共180KB）作为元数据，直接嵌入JPEG或HEIC文件的标准元数据字段里。

在**后处理时**，用户从图像文件的元数据中提取模型参数，把图像y重新送入编码器和MLP，得到去幻觉版本x̂。**完全不需要访问相机ISP**。

### 2.3 为什么这个方法有效

这个方法的效果来自几个关键设计选择：

**第一，编码器+MLP的分离设计，而不是纯坐标MLP（如SIREN/NeRF）**

传统的INR方法（SIREN、NeRF）用(x,y)坐标作为输入，一个MLP直接映射到RGB。这类方法需要per-image从头优化，收敛很慢。论文里比较了：SIREN和NeRF如果从零开始优化100K步，确实能达到不错的PSNR，但需要几分钟——这在拍摄时刻是不可接受的。

作者们发现，如果预训练一个编码器来学习"如何把图像y转换成一个有用的中间表示"，然后只finetune小MLP，就可以在3秒内达到甚至超过纯MLP从头优化的效果。编码器承担了大部分"理解图像"的负担，MLP只负责"微调残差"。

**第二，残差预测，而不是直接预测**

MLP不是直接输出x̂，而是输出一个残差，然后x̂ = y - residual。这很直觉：y和x之间的差异通常不大（大部分像素没有被严重幻觉化），所以MLP只需要学会"修正"那些有问题的地方，而不是从零重构整张图像。

**第三，模态特定编码器**

作者们尝试了用一个通用编码器处理所有任务（自然图像SR、文字SR、低光增强），结果PSNR掉了1.5dB。这说明不同幻觉类型需要不同的"理解方式"——文字SR和自然图像SR的幻觉模式完全不同。相机在拍摄时知道当前激活的是哪个AI ISP模块（数字变焦还是夜景模式），所以可以自动选择对应的预训练编码器。

### 2.4 实验结果

论文在三个任务上做了评估：
- **自然图像超分辨率**：DIV2K数据集，4倍上采样，RealESRGAN作为幻觉来源；
- **文字超分辨率**：MARCONet生成的文字图像；
- **低光增强**：LOL数据集，AutoDIR作为幻觉来源。

结果很明确（Table 1）：
- 在DIV2K上，论文方法PSNR 32.96dB，优于SIREN（28.75）、NeRF（29.46）、hashgrid（29.20），也优于盲恢复的NAFNet（32.25）；
- 在MARCONet文字SR上，31.26dB，远超所有基线（最好的hashgrid也只有30.32）；
- 在LOL低光增强上，36.34dB，同样最优。

与JPEG残差压缩的比较也很有说服力：如果把(y-x)的残差用JPEG压缩后存为元数据，在180KB大小下只有27.44dB；即便增加到416KB（QF=30），也只有34.67dB，还是不如论文方法的35.12dB（Table S1）。更重要的是，论文的元数据大小是**分辨率无关的**——无论图像多大，模型参数始终是180KB。而残差图像的大小随分辨率线性增长。

定性结果同样令人印象深刻。一个车牌例子：AI SR把"GQB"变成了"608"，中文"争渡，争渡"变成了"争澳，争渡"。论文方法成功恢复了原始字符。另一个例子：AI低光增强把字母"i"变成了"l"，论文方法恢复了"i"。

### 2.5 费曼视角的审视

让我再用费曼的方式审视这篇论文。

首先，**这个方法到底在做什么，去掉名字看本质？** 它不是在"对抗AI幻觉"或者"保护图像真实性"——这些名字听起来很宏大。本质上，它在做一件非常简单的事：**对于每张图像，学习一个从"被AI修改过的版本"到"AI修改前的版本"的映射**。因为每张照片的修改方式都不同（取决于原始内容、光照、相机参数），所以不能用一个大模型覆盖所有情况。解决方案是：**用一个大编码器理解图像，用一个小模型针对每张图做微调**。180KB就是这个微调后的小模型。

第二，**这是货物崇拜吗？** 不是。论文没有堆砌复杂的GAN架构、diffusion模型、或者自监督预训练。它用了一个2层MLP（53KB）和一个轻量编码器（127KB）。核心创新不是"我们用了最新的技术"，而是"我们发现了一种紧凑的、实用的方式来存储和恢复被AI篡改的图像"。

第三，**有什么没说的？** 论文有几个未验证的假设值得注意：
- 它假设拍摄时刻可以获取到"AI增强前的中间图像x"来训练MLP。对于相机厂商来说这没问题（他们自己控制ISP），但如果是第三方事后分析一张已经存好的JPEG，没有这个配对信息，这个方法就没法用了；
- 元数据的安全性问题：180KB的模型参数如果有人恶意篡改，能不能反过来制造"看起来真实但其实也是假的"图像？论文说加密和水印技术超出了本文范围；
- 论文主要验证了超分辨率和低光增强。但ISP里的AI模块会越来越多，未来的AI ISP可能是端到端的单个大模型，不再有明显的"中间点x"。那时候这个方法还适用吗？

第四，**这个180KB有多小？** 作为直觉锚点：一个普通的iPhone照片JPEG大约是2-5MB。180KB是其中约3-9%的大小。相当于你每拍一张照片，多花3-9%的存储空间，就能保留一个"去AI化"的按钮。这个trade-off在实际产品中是完全可以接受的。

---

## 第三章：华山论剑——两篇论文的对照

现在，让我们把两篇论文放在一起看。它们处理的问题表面上完全不同——一个处理超长医学视频，一个处理单张相机图像。但它们共享一些深层结构。

### 3.1 共同的问题结构：稀疏证据 + 高不确定性 + 不可逆结论

DiCE面对的问题是：10万帧视频里，不到10帧真正重要。这些重要的帧还经常被运动模糊、气泡、反光毁掉。你必须从这极其稀疏的证据中做出可靠的诊断决策。

图像去幻觉面对的问题是：一张已经被AI修改过的照片里，大部分像素可能还是"真的"，但有一小部分被AI"编"出来的像素完全改变了图像的语义。你必须找出这些被篡改的地方，并且把它们还原。

两个问题的共同点是：
- **信噪比极低**：DiCE里"有用信号"占总数据的0.01%；去幻觉里"被篡改像素"占总像素的也许只有5%，但这5%可能集中在文字、人脸、关键标识上；
- **错误代价高**：DiCE漏掉一个溃疡可能导致患者延误治疗；去幻觉里一个被改错的车牌字符可能导致法律证据失效；
- **传统方法失效**：在DiCE里，单帧分类器不稳定，多帧简单平均也不够；在去幻觉里，通用的大模型无法处理per-image的歧义性。

### 3.2 共同的解决思路：上下文 + 聚合

两篇论文的核心策略都指向同一个方向：**不要信任单个观测，要在上下文中做聚合**。

DiCE的Context Weaver + Evidence Converger，本质上是在说："一帧图像不可靠，但一组在时间和视觉上都连贯的帧组合在一起，就能提供可靠的证据。" 它不是让模型学会"看到病变"，而是让模型学会"在上下文中确认病变"。

图像去幻觉的编码器+MLP设计，虽然看起来不同，但也在做类似的事：编码器学习了一个模态级别的"上下文"（即"这类AI增强通常会怎么修改图像"），然后MLP针对具体图像做微调，本质上也是在说："单个像素不可靠，但结合全局图像特征和空间坐标，我们就能推断出这个像素被AI改了什么。"

### 3.3 关键的分歧：数据方向 vs 模型方向

但两篇论文在解决问题的方式上有根本性的不同。

**DiCE是"数据方向"的**：它的核心贡献不是提出了一个新的模型架构，而是**重新定义了任务和数据**（VideoCAP）。它证明了在这个新任务上，一个简单的方法（筛选-分组-投票）就可以打败8B参数的大模型。这说明问题的瓶颈在于**任务定义和评估方式**，而不是模型能力。

**图像去幻觉是"模型方向"的**：它的核心贡献是一个具体的、可部署的技术方案（编码器+MLP+元数据）。它证明了在特定问题设定下，180KB的元数据可以有效地逆转AI ISP的幻觉。这说明问题的瓶颈在于**如何紧凑地表示per-image的逆映射**。

这个分歧很有意思。DiCE的作者们可能会说："与其堆更大的模型，不如先把问题定义对。" 图像去幻觉的作者们可能会说："在正确的技术方案下，小模型也可以解决大问题。"

### 3.4 另一个分歧：临床闭环 vs 消费产品

DiCE的设计天生是面向临床闭环的。它需要VideoCAP这样带有诊断报告标注的数据集，它的评估指标（Diagnostic Yield、Patient Detection Rate）直接对应临床效用。它最终的目标是把医生从1小时的视频审查中解放出来。

图像去幻觉的设计天生是面向消费产品的。180KB的元数据可以轻松嵌入JPEG，3秒的finetune可以在手机上完成。它的目标是让每个拍照的人都能按一个按钮，看到"AI没碰过"的版本。

这种差异意味着两篇论文的技术路径很难互换。DiCE的层次聚类策略对单张静态图像没有意义。图像去幻觉的per-image MLP对10万帧的视频来说，3秒×10万=不可行。

### 3.5 更深层的对比：信任的方向

两篇论文其实在一个更哲学的问题上站在了对立面：**我们应该更信任AI，还是更不信任AI？**

DiCE本质上在说："医生太累了，AI来帮忙诊断。" 它的前提是**信任AI辅助诊断**，只要方法设计得当（模仿医生的工作流程），AI就能提供可靠的诊断支持。

图像去幻觉本质上在说："AI在相机里乱改东西，我们需要一个工具来对抗它。" 它的前提是**不信任AI的'美化'**，用户有权看到"AI没碰过"的版本。

两篇论文都在CVPR 2026的同一个session里出现，恰好构成了一个完整的叙事：**AI视觉系统既可以帮助我们看见以前看不见的东西，也可能让我们看见不存在的东西。我们需要好的工程来放大前者，遏制后者。**

---

## 第四章：深层思考——我们到底在解决什么问题

### 4.1 医学AI的特殊困境：从"辅助诊断"到"替代诊断"有多远？

DiCE的结果令人鼓舞——0.2B参数的模型在VideoCAP上打败了所有8B基线。但我要指出一个费曼式的问题：**这到底意味着什么？**

意味着DiCE比Qwen3-VL更擅长"匹配临床报告中的病变描述"。但这是否等同于"DiCE比Qwen3-VL更擅长临床诊断"？不一定。临床报告本身就可能出错。VideoCAP的标注是基于已有的报告，如果报告漏了一个病变，VideoCAP里就没有这个病变，模型也没有动力去发现它。

更深的问题：DiCE的诊断产出率（Diagnostic Yield）只有20%。这意味着**80%的病人，模型没有检测出他们所有的病变**。在实际临床场景中，这意味着医生仍然需要人工复查所有视频——DiCE只是提供了一份摘要，不能替代完整的审查。

这不是批评DiCE。恰恰相反，DiCE的作者们非常诚实地报告了这个数字。但我想指出一个行业中的普遍自欺现象：很多医学AI论文报告的是AUC、敏感度、特异度这些数字，但临床医生真正关心的是"用了这个AI，我能不能少看一半视频而不漏诊？" DiCE的20%诊断产出率告诉我们：在CE视频分析上，AI离这个目标还有很长的距离。

### 4.2 相机幻觉的法律与伦理维度

图像去幻觉的论文主要聚焦在技术层面，但它触及的问题有深远的法律和伦理影响。

想象一个场景：一场交通事故后，某人的智能手机照片显示，对方车辆的车牌是"608"。但如果用去幻觉工具还原，真实车牌可能是"GQB"。这个差异可能改变法律责任归属。那么问题来了：
- 法庭上，哪张图像是"证据"？AI增强后的还是去幻觉后的？
- 如果去幻觉工具的180KB元数据被篡改，怎么办？
- 如果相机厂商拒绝提供"增强前图像x"来生成配对训练数据，第三方有没有权利要求？

这些问题超出了纯技术范畴，但技术选择会深刻影响这些问题的答案。比如，如果元数据使用加密签名，就能防止篡改；如果立法要求相机厂商必须提供unhallucinated版本，就能保障用户权利。这篇论文为这些讨论提供了技术基础。

### 4.3 "上下文"作为通用解药

两篇论文都反复提到"上下文"——DiCE的Context Weaver编织诊断上下文，图像去幻觉的编码器提供模态上下文。这让我想到一个更一般的问题：在AI视觉系统的各种失败模式中，**缺乏上下文理解**是不是一个共同的根源？

单帧分类器为什么失败？因为它只看一帧，不知道这帧在视频的什么位置、前后是什么内容。通用图像恢复模型为什么在某些任务上失败？因为它不知道当前处理的是自然图像还是文字、是超分辨率还是低光增强。

上下文不是魔法，但它提供了一种**降低不确定性**的机制。在信息论的意义上，上下文就是条件概率——P(病变|单帧)可能很低，但P(病变|前后30秒都是类似内容)就高得多。P(这个像素被改了|全局图像是张文字图片)比P(这个像素被改了|孤立像素值)更可靠。

这是不是意味着未来的AI视觉系统都应该内置某种"上下文模块"？不一定——上下文有代价。DiCE的层次聚类增加了计算复杂度；图像去幻觉的编码器需要预训练。但两篇论文的结果表明，在很多场景下，这个代价是值得的。

### 4.4 费曼式的终极问题：你真的理解了吗？

让我回到费曼的核心问题：**命名≠理解**。

关于DiCE，你可以说："哦，这就是一个分层的视频摘要框架，用了DINOv3做特征提取，然后聚类，然后投票。" 但如果你只说到这个层面，你只是记住了名字和流程。真正的理解是：**为什么这个简单的流程比8B参数的MLLM更有效？** 答案是：因为MLLM被训练来做"通用视频理解"，而CE视频的特殊性（极端稀疏性、高不确定性、临床相关性）要求一种完全不同的推理模式。MLLM的uniform sampling和keyframe selection假设"信息密度相对均匀"，但CE视频完全违背这个假设。DiCE的成功来自它**放弃了通用性，拥抱了领域特殊性**。

关于图像去幻觉，你可以说："哦，这就是用一个编码器加MLP做图像恢复，然后把参数存到JPEG元数据里。" 但如果你只说到这个层面，你只是描述了一个pipeline。真正的理解是：**为什么per-image finetune比一个大模型更好？** 答案是：因为AI ISP的幻觉不是统一分布的——它取决于原始图像的内容、光照、噪声水平。一个大模型试图"平均地"处理所有情况，所以它在有本质歧义的场景（比如低光增强中"原来有多暗"）上必然失败。per-image finetune本质上是在说："我不猜测通用规则，我针对这张具体的照片学习具体的逆映射。"

### 4.5 货物崇拜的检测

在AI研究领域，有一个我越来越担心的货物崇拜：**模型越大越好，数据越多越好，参数量就是能力**。

DiCE用0.2B参数打败了8B参数的对手。图像去幻觉用180KB的小模型解决了大模型无法解决的per-image歧义。这两篇论文共同传递了一个信息：**在某些问题上，问题的结构比模型的规模更重要**。

这不是说大模型没用。但它是说：在盲目追求更大模型之前，先问一下自己——**我是否真正理解了这个问题的本质？** 如果理解了，也许你会发现一个0.2B参数的方案就足够了。如果不理解，64B参数也可能只是在用更大的竹子搭一个更壮观的控制塔。

---

## 结语：两场关于"看见"的革命

DiCE和图像去幻觉，两篇论文，两个世界，一个共同的主题：**AI如何帮助我们更好地"看见"，同时不让我们"看错"？**

DiCE代表了一种**建设性的AI**——它进入医疗场景，不是为了替代医生，而是为了把医生从机械性的海量筛查中解放出来，让他们把精力集中在真正的诊断决策上。它的设计哲学是：模仿最优秀的人类专家，把他们的工作流程编码成可计算的步骤。

图像去幻觉代表了一种**防御性的AI**——它意识到AI本身也可能成为问题的来源，所以需要另一个AI来监督和纠正。它的设计哲学是：给用户提供选择权，让他们在"美化版"和"真实版"之间做决定。

两种方向都重要。我们不能只追求建设而忽略防御，也不能只防御而停止建设。

从费曼的角度看，这两篇论文最好的地方不是它们提出的具体技术，而是它们**诚实地面对了问题的本质**。DiCE没有假装CE视频和普通YouTube视频是一回事；图像去幻觉没有假装一个通用大模型就能解决所有逆映射问题。它们都选择了**直面问题的特殊性**，然后用**足够简单、足够有针对性的方案**去解决。

这就是我想说的。两篇论文都不完美——DiCE的20%诊断产出率还有很大提升空间；图像去幻觉的元数据安全和泛化性还有待验证。但它们都在正确的方向上迈出了坚实的一步。

> "The first principle is that you must not fool yourself — and you are the easiest person to fool."
> 
> 在AI视觉系统越来越深入我们生活的今天，这句话可能比任何时候都更适用。无论是诊断病人还是拍摄照片，我们都需要既相信AI的能力，又保持对它局限性的清醒认识。
> 
> 不自欺。从搞清问题开始。

---

**论文索引**

- Bowen Liu, Li Yang, Shanshan Song, Mingyu Tang, Zhifang Gao, Qifeng Chen, Yangqiu Song, Huimin Chen, Xiaomeng Li. "Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos." arXiv:2604.21814 [cs.CV], April 2026.
- Umar Masud, Abhijith Punnappurath, Luxi Zhao, David B. Lindell, Michael S. Brown. "Addressing Image Authenticity When Cameras Use Generative AI." arXiv:2604.21879 [cs.CV], April 2026.

---

*本文由小凯基于费曼思维框架撰写。如有理解偏差，责任在我。*

#论文对比 #PaperSlam #AI论文 #2604.21814 #2604.21879 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Paper Slam 4/25：当AI开始"看"——诊断视频中的病变与复原照片中的幻觉

讨论回复

推荐