在十亿像素的房间里开窗：一篇病理学论文如何教会我们「看见」的艺术

> 论文：How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology > 作者：Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai > 机构：MIT, Harvard Medical School, Dana-Farber Cancer Institute > arXiv：2606.12407 > 发表：2026年6月10日

---

🎭 开场：一个关于「窗户」的寓言

想象你站在一座图书馆前。这座图书馆里有十亿本书——不，是十亿页纸，每一页上都写满了细胞的语言。这就是病理学中的全切片图像（WSI）：一张玻璃切片在显微镜下被扫描成的数字文件，像素数量堪比一座小型城市的人口。

你的任务？让一个从未学过病理学的通用AI助手——比如GPT-5——走进这座图书馆，找出某一页上写的是「肺癌」还是「乳腺癌」，或者判断这本书属于哪个器官。

问题来了：你不可能把十亿页纸同时塞到AI的面前。它的「桌子」不够大（上下文窗口有限）。所以你必须做一个选择：让AI从哪个「窗户」看进去？

这扇窗户的大小、高度、数量，以及AI是一次只看一扇窗还是同时俯瞰所有窗户——这些看似微不足道的设计选择，却决定了AI能否从这座图书馆里读出真相。

这就是今天这篇论文的故事。它来自MIT和哈佛医学院，四位作者做了一件看似简单却惊人的事：他们系统性地研究了「窗户」的四个维度，然后发现——我们之前的所有基准测试，都选错了窗户。

---

🔬 第一章：十亿像素的迷宫与「窗户」的困境

🧩 为什么病理学图像如此特殊？

让我们先理解这座「图书馆」有多庞大。

一张典型的WSI（全切片图像）包含大约100,000 × 100,000像素。什么概念？如果你把它打印出来，那是一张边长超过27米的巨幅画布。在这张画布上，细胞像无数微小的城市建筑一样排列，组织像河流一样蜿蜒，血管像道路一样分叉。病理学家需要在这幅巨画中识别出疾病的签名——一个异常核的形状、一团细胞的异常排列、一片组织的异常纹理。

对于人类病理学家，这需要多年的训练。他们会在显微镜下移动切片，从低倍到高倍，先看整体布局，再聚焦可疑区域。他们的眼睛和大脑在毫秒间完成了从全景到特写的切换。

但对于通用大语言模型（LLM），它们不是为这种任务设计的。它们的视觉编码器（比如GPT-4V或GPT-5的vision模块）在训练时见过的是什么呢？网上照片、社交媒体图片、图表、教科书插图——这些大多是中等分辨率、包含整体语境的图像。它们很少见过病理学中那种极端的场景：一个224×224像素的小方块，只包含几十个细胞，放大20倍。

🪟 现有基线方法：一扇扇独立的小窗

因为无法一次性处理整幅WSI，研究者们发明了一种实用但粗糙的协议：

1. 从WSI中随机采样小尺寸、高倍率的图像块（patch），比如224×224像素，20×放大 2. 每个图像块独立送入模型 3. 模型对每个块给出预测 4. 最后通过多数投票（majority voting）聚合结果

这个方案在学术文献中被广泛采用，作为「通用LLM基线」。它的直觉很合理：小窗口看得细，多看几个窗口总有正确答案。多数投票就像民主投票——少数服从多数。

但这里有一个被忽视的假设：这些窗口之间是否足够独立？模型是否真的能从每个小窗口里独立地做出判断？

更重要的是：这个「窗户」的选择——大小、高度、数量——是否真的是最佳方案？还是仅仅因为它是第一个被想到、最容易实现、最符合传统视觉模型习惯的做法？

🤔 核心问题：专用模型真的更强，还是基线被低估了？

过去几年，通用LLM在病理学基准测试中持续表现不佳。这强化了一个广泛接受的叙事：病理学需要领域特定的训练、专门的架构设计、或者专门的视觉编码器。

但论文作者提出了一个尖锐的质疑：如果基线本身就被设计得不够好，那么「专用模型更强」的结论是否被夸大了？如果仅仅改变输入配置——不改变模型、不微调权重、不增加参数——就能让通用LLM大幅提升，那关于「领域特定必要性」的叙事是否需要重写？

这就像一个学生被要求在黑暗的小房间里阅读，成绩不好。大家说他需要特殊眼镜。但也许他只是需要一盏更亮的灯，或者把窗户开大些。

---

🧪 第二章：72种窗户的实验——一场系统性的「开窗」工程

🏗️ 四因子、72种配置的实验设计

作者们设计了一个全因子实验（factorial design），系统性地探索四个输入设计因素：

设计因素	水平	说明
推理模式（Inference Mode）	2种	多数投票（独立处理）vs 全合一（联合处理）
图像块大小（Patch Size）	4种	224, 512, 896, 1024 像素
放大倍数（Magnification）	3种	5×, 10×, 20×
图像块数量（Patch Count）	3种	10, 20, 30 块

总计：2 × 4 × 3 × 3 = 72种配置。每种配置都像一个独特的窗户设计方案——有的小而高（224px, 20×），有的大而低（1024px, 5×），有的让AI分别看每扇窗（多数投票），有的让AI同时俯瞰所有窗户（全合一）。

这个实验设计的美妙之处在于，它不仅能评估每个因素的主效应，还能揭示因素之间的交互作用。比如，大图像块在高倍率下是否比低倍率下更好？多数投票在图像块多的时候是否更有优势？

📊 数据集：五个病理学任务，一张全景图

实验基于MultiPathQA基准测试，包含934个问题，横跨5个子数据集：

1. GTEx：器官分类（20种器官）——像看城市天际线识别这是巴黎还是东京 2. TCGA：器官-癌症类型分类（12种癌症）——像识别城市中的建筑风格判断是否有违规建设 3. PANDA：Gleason前列腺癌分级——像判断建筑的精细结构等级 4. SlideBench：视觉问答（VQA）——像回答关于城市布局的具体问题 5. ExpertVQA：病理学家编写的VQA——像回答专家提出的诊断级问题

此外，还有一个完全独立的验证集CPTAC（临床蛋白质组学肿瘤分析联盟），200张采样，从未参与任何配置选择，用于测试结论的泛化性。

🔄 三阶段评估策略：从探索到验证

Phase 1：在100张WSI子集上做探索性因子分析，优先排序因素重要性
Phase 2：在完整934张MultiPathQA上验证关键发现
Phase 3：跨三个模型（GPT-5, Qwen 3.5 Plus, Gemini 3 Flash）和CPTAC held-out数据测试泛化性

---

🏆 第三章：第一个惊人发现——推理模式：独立投票 vs 联合俯瞰

🗳️ 多数投票的陷阱：民主不是万能的

在多数投票（Majority Vote）模式下，每个图像块被独立送入模型。模型对第一个块说：「这可能是肺癌。」对第二个块说：「这可能是肺癌。」……最后所有块投票，肺癌得票最多，答案就是肺癌。

这听起来很合理，但有一个致命缺陷：每个图像块都是孤立判断的。模型无法在不同块之间建立联系。它无法知道，第一个块中的那片细胞和第三个块中的那片细胞属于同一组织区域，也无法在两个相距遥远的异常区域之间做推理。

用一个比喻：你让一位侦探调查一桩案件。多数投票就像把案件现场切成十张照片，分别给十个侦探，每人只看一张照片，然后投票表决凶手是谁。没有侦探能看到全貌，没有侦探能建立线索之间的联系。如果一张照片里恰好有误导性线索（比如一只无关的鞋），那位侦探就可能会被带偏。

🌐 全合一的力量：俯瞰全局的侦探

全合一（All-in-One）模式则完全不同。所有图像块被同时输入同一个模型实例。模型可以在不同块之间「看到」彼此，建立全局的语境。这类似于注意力机制（Attention）中的多实例学习（MIL）：模型可以比较不同区域的特征，找出哪个区域最具诊断价值，哪个区域只是背景噪音。

用一个更形象的比喻：全合一模式就像把十张照片摊开在一张大桌子上，让侦探同时看所有照片。他可以指出：「这里和这里的细胞纹理相似，它们属于同一个组织区域。而这边的异常与那边无关，可以排除。」

📈 数据说话：推理模式是最主导的因素

在Phase 2验证中（224px, 20×, 30块），仅切换推理模式就带来了显著的提升：

数据集	从多数投票到全合一的提升
GTEx（器官分类）	+5.64 个百分点
TCGA（癌症分类）	+8.65 个百分点
PANDA（癌症分级）	+5.67 个百分点
SlideBench（VQA）	+2.06 个百分点
ExpertVQA（专家VQA）	+12.50 个百分点（最大）

12.5个百分点的提升——仅仅因为让模型同时看所有窗户，而不是一扇一扇地看。这不需要改变模型架构、不需要微调、不需要增加参数。只是改变了输入方式。

更惊人的是，全合一还更便宜。因为每个图像块不再需要独立的模型调用，token数量从~30,000-56,000降到~10,000，成本从$0.077-0.221降到$0.012-0.029——约10倍的成本节省。

这就像一个公司发现，把员工叫到会议室一起开会讨论问题，比让每个人单独发邮件讨论更高效、更便宜、效果更好。这是管理学的常识，但 somehow 在AI输入设计上被忽略了。

---

🔍 第四章：第二个发现——图像块大小：窗口不是越小越好

🔬 为什么224×224成了「默认」？

在计算机视觉领域，224×224像素是一个神圣的默认尺寸。它来自ImageNet的时代，那时的模型训练数据就是这个大小。这个传统在病理学中被延续：既然小尺寸对分类模型有效，那应该也适用于LLM吧？

但论文揭示了一个关键差异：专用视觉模型（如CNN）在训练时就是被小块训练的，所以它们擅长处理小块。但通用LLM的视觉编码器是在更大的、包含更多语境的图像上训练的。

用一个比喻：你训练一个画家画风景。如果他一直练习的是大画布、全景构图，那让他突然只看一张明信片大小的局部来画整幅画，他会困惑。他的训练里很少有「只给局部，推断整体」的场景。

📐 大窗户的优势：语境是诊断的生命线

论文发现，性能随图像块增大而提升。在多数任务中，896-1024像素是最优的。

为什么？因为大图像块提供了更宽的视野。病理学诊断往往不是看一个细胞的形态，而是看一群细胞的排列方式、组织与组织之间的边界、不同区域的结构关系。一个224×224的块在20×放大下只包含几十个细胞，像从一张城市地图里只看到一个街区的角。而一个1024×1024的块在5×放大下可以看到大片的组织架构，像从高处俯瞰整个街区。

对于GTEx（器官分类），最优配置是1024px、5×。这意味着识别一个器官需要看到最大视野、最低倍率——就像你识别一座城市，需要看天际线和整体布局，而不是看一条街上的一块地砖。

对于PANDA（Gleason分级），最优配置是512px、20×。这是一个有趣的例外：Gleason分级需要细胞级的细节，判断细胞核的大小、形状、排列。这就像建筑评估，需要看砖块的质地和堆砌方式，而不是看整条街。

🎨 一个关于「视距」的文学隐喻

这让我想到法国作家乔治·佩雷克（Georges Perec）的《物种：空间》（Espèces d'espaces）中的一段话：

> 「同样的街道，根据你是步行、骑车、开车还是坐飞机经过，会是完全不同的。速度改变了空间，正如距离改变了形状。」

在病理学中，图像块大小和放大倍数的组合就是「视距」与「速度」的等价物。不同的诊断任务需要不同的视距。从病理学家的显微镜到通用LLM的输入窗口，我们需要的不是单一的视距，而是可调的、任务适配的视距。

---

🔎 第五章：第三个发现——放大倍数：高倍率不是万能的

🔬 20×：病理学家的黄金标准，LLM的陷阱

在病理学中，20×放大是临床标准。病理学家在显微镜下从低倍（5×）扫视整张切片，找到可疑区域，然后切换到20×甚至40×看细胞细节。这是人类的工作流。

但论文发现一个反直觉的趋势：对于通用LLM，性能随放大倍数降低而提升（5×通常优于10×，10×通常优于20×）。

为什么？

因为通用LLM的视觉编码器在预训练时没有见过大量20×放大的病理图像。它见过的是网页上的医学图片、教科书里的图表、论文中的插图——这些通常是在较宽视野下展示组织架构的。一张展示「结肠癌」的教科书图片，不会只展示一个细胞的细胞核，而是展示整个腺体结构和周围间质的对比。

所以，当你给LLM一个20×的小块时，它看到的是一个对它来说陌生的世界。而当你给LLM一个5×的大块时，它看到的是一个更接近它训练数据分布的世界。

🏙️ 城市类比：从高空俯瞰 vs 显微镜下的街角

想象一个外国游客第一次来到北京。你给他一张照片，让他判断这是哪个城市。如果照片是20×放大的——只拍到一块地砖、一堵墙的砖纹、一个路灯的局部——即使是最有经验的游客也可能困惑。但如果照片是5×放大的——拍到了整个胡同的布局、四合院的结构、远处的天坛轮廓——即使是第一次来北京的人也可能说「这看起来是中国」。

通用LLM在病理学中的困境，与此类似。它的训练让它更擅长识别「整体氛围」和「布局结构」，而不是「细胞级细节」。这不是它的错——它原本就不是为显微镜设计的。

⚠️ 重要例外：PANDA需要细胞级细节

PANDA（Gleason分级）是唯一的例外。它需要20×放大，因为Gleason评分系统本身就基于细胞级的形态特征：腺体的大小、形状、浸润模式、细胞核的多形性。这就像判断一座建筑是否危楼，需要看砖缝和结构裂缝，而不是看城市天际线。

这个例外恰恰证明了论文的核心观点：没有一种「通用最佳」的窗户配置。每个任务需要不同的视距。关键是，要找到这个任务的「最佳视距」，而不是盲目沿用传统。

---

📊 第六章：第四个发现——图像块数量：边际效益递减的法则

🎰 更多的窗户不一定更好

论文测试了10、20、30个图像块。结果发现：

从10到20块通常有明显提升
从20到30块收益递减，甚至趋于平台
图像块数量是四个因素中贡献最小的

这符合直觉：如果每个块提供的信息有重叠，那么新增块的边际信息就会递减。在组织病理学中，同一组织区域的不同切片往往高度相似——从20个增加到30个随机采样的块，可能只是看到了更多「大同小异」的景象。

💰 成本考量：每多加一扇窗都是钱

每增加一个图像块，在全合一模式下意味着更长的上下文序列（更多token），在多数投票模式下意味着额外的API调用。20块是论文发现的性价比平衡点：信息量足够，成本可控，边际递减不严重。

---

🏅 第七章：革命性的结果——从「表现差」到「超越专用模型」

📈 与先前工作的直接对比

这是论文最震撼的部分。让我们直接看数据：

方法	TCGA（癌症）	GTEx（器官）	PANDA（分级）	SlideBench（VQA）	ExpertVQA（专家VQA）
GPT-5 文献协议（复现）	15.1%	38.1%	21.5%	49.0%	39.1%
GPT-5 最优配置	43.9%	71.6%	31.0%	61.9%	63.3%
提升幅度	+28.8 pp	+33.5 pp	+9.5 pp	+12.9 pp	+24.2 pp

仅通过改变输入配置，GPT-5在TCGA上从15.1%飙升到43.9%——几乎翻了三倍。在GTEx上从38.1%到71.6%——几乎翻倍。

🤯 超越专用模型：通用LLM的逆袭

更震撼的是，优化后的GPT-5超越了专用智能体模型：

模型	TCGA	GTEx
GIANT（专用智能体）	32.3%	54.1%
GPT-5 最优配置	43.9%	71.6%

这是一个范式转移的发现。之前的研究认为，病理学需要领域特定的架构（如GIANT这样的专用智能体）。但论文证明，一个完全通用的、未经微调的LLM，只要输入配置对了，就能超越领域专用系统。

这就像发现，一个普通的照相机，只要调整光圈、快门和焦距，就能拍出比专业相机（但参数设错了）更好的照片。问题不在相机本身，而在如何设置相机。

🔬 平衡配置的威力：一个配置，多处提升

论文还提出了一个「平衡配置」：896px, 10×, 20块, 全合一。这个配置不是为某个任务单独优化的，而是「一个通用配置，在多个任务上都表现不错」。

使用这个平衡配置，在MultiPathQA上：

模型	TCGA	GTEx	CPTAC（held-out）
GPT-5（文献协议）	15.1%	38.1%	32.7%
GPT-5（平衡配置）	39.5%	62.9%	36.5%
提升	+24.4 pp	+24.8 pp	+3.8 pp
Qwen 3.5 Plus（平衡配置）	54.3%	66.8%	39.7%
Gemini 3 Flash（平衡配置）	63.0%	75.5%	55.9%

注意到CPTAC是完全独立的数据集，从未参与任何配置选择。Gemini 3 Flash在CPTAC上从32.5%提升到55.9%——+23.4个百分点。这证明趋势不是数据集特定的，而是模型内在的能力释放。

---

🧠 第八章：为什么这些「微不足道」的选择如此重要？

🎯 对齐原则：预训练分布与输入分布的匹配

论文的核心洞见可以用一个词概括：对齐（alignment）。

通用LLM的视觉编码器在数十亿张互联网图像上训练。它学到的视觉表征不是「20×放大的细胞图像」，而是「包含整体语境、多种尺度、丰富语义的自然图像」。当你给它一个224×224、20×的病理图像块时，你给它的是一个分布外的样本——它从未见过这种「语言」。

但当你给它一个1024×1024、5×的图像块时，你给它的是一个更接近它训练分布的样本。它可以调动预训练时学到的关于纹理、布局、结构的知识。这就像和一个学过很多种语言的人交流：你不需要重新教他语言，只需要找到他已经学过的、最接近的那种语言。

🔗 推理模式：从「投票民主」到「全局推理」

全合一模式之所以强大，是因为它让模型能进行跨区域推理（cross-region reasoning）。在多数投票中，每个块的预测是孤立的。模型无法说「这块区域和那块区域的纹理一致，所以它们属于同一组织类型」。在全合一中，模型可以把所有块当作一个整体来推理，类似于病理学家在显微镜下移动视野时所做的空间推理。

🧮 交互效应：不是简单叠加，而是复杂交织

论文的ANOVA分析揭示了因素之间的交互效应。比如：

在GTEx和TCGA中，「图像块大小 × 放大倍数」的交互很重要。这意味着大图像块在低倍率下的优势，和高图像块在高倍率下的优势，不能简单地分开讨论。它们像咖啡和牛奶——单独喝都行，但一起喝是另一种体验。
在PANDA中，「推理模式 × 图像块大小」的交互独特地显著。多数投票在大图像块时性能反而下降——因为大图像块在20×放大下包含了太多信息，独立处理时模型反而困惑。

这告诉我们：输入设计不是简单的「越大越好」「越低越好」的线性问题。它是一个多维度优化的非线性问题，需要考虑因素之间的复杂交互。

---

🌏 第九章：混合放大倍数的消融——多尺度是不是更优？

🔄 一个自然的想法：同时给不同倍率

如果低倍率对大视野任务好，高倍率对细节任务好，那混合起来是不是能兼得？比如同时给10块5×、10块10×、10块20×？

论文做了这个实验。结果：混合放大倍数未产生叠加增益。性能通常介于各单倍放大之间，而不是超越它们。

配置	TCGA	GTEx	PANDA
5× 仅	41.8%	70.2%	22.1%
10× 仅	39.6%	62.8%	20.8%
20× 仅	33.3%	56.8%	28.8%
混合（各10块）	41.1%	66.4%	25.3%

混合的TCGA结果（41.1%）接近5×的41.8%，低于5×单独。GTEx的混合（66.4%）介于5×的70.2%和10×的62.8%之间。PANDA的混合（25.3%）低于20×单独的28.8%。

结论：在固定图像块预算（30块）下，混合策略平均化了各尺度的优势，而不是增强它们。就像把多种咖啡混在一起，得到的是一杯「平均」的咖啡，而不是一杯更浓的咖啡。

🤔 为什么混合不如单一优化？

论文没有深入解释，但我们可以推测：

1. 上下文稀释：混合后，模型需要在同一上下文中处理多个尺度的信息。低倍率的广视野和高倍率的细节可能互相干扰，模型注意力被分散。 2. 任务特异性：每个任务有一个「最佳尺度」。混合时引入了次优尺度的噪音，而这些噪音无法被最优尺度的信息完全补偿。 3. 固定预算：如果总块数固定（30块），混合意味着每个尺度的块数减少。如果5×单独需要30块才能达到最优，那混合中只给10块5×就太少了。

这个发现对实际应用很重要：与其尝试多尺度融合，不如先确定任务的最佳尺度，然后全力优化那个尺度。

---

📐 第十章：视野分析——像素数不是唯一的故事

🗺️ 总视野 = 覆盖面积，但不等于理解深度

论文提出了一个有趣的概念：总视野（Field of View, FoV）。

FoV = (Patch Size / Magnification) × Patch Count

比如，1024px、5×、20块的总视野 = (1024/5) × 20 = 4096 × 4096像素。这是模型实际「看到」的组织面积。

论文发现：更大的FoV通常与更好的性能相关。但FoV不能完全解释缩放行为。即使控制FoV相同，不同的配置（图像块大小、放大倍数、数量的组合）仍然会产生不同的性能。

这意味着：

图像块大小不只是组织覆盖率的代理。更大的块提供不同的视觉表征——更连续的纹理、更完整的结构、更少的边缘效应。
放大倍数不只是分辨率的代理。低倍率提供更全局的组织架构信息，高倍率提供细胞级细节。这是质的区别，不是量的区别。
图像块数量不只是信息量的代理。超过20块后，新增块的信息冗余，而模型注意力有限，可能反而分散了焦点。

🎨 回到佩雷克的隐喻

> 「速度改变了空间，正如距离改变了形状。」

在病理学LLM输入中，「图像块大小 × 放大倍数」的组合就是「速度」和「距离」的乘积。它决定了模型看到的空间的「形状」和「质地」。不同任务需要不同的「形状」——有的需要广阔的、鸟瞰的、结构化的空间；有的需要细密的、微观的、局部的空间。

---

🏛️ 第十一章：对病理学AI的深远影响

🔄 基线方法论的重新审视

这篇论文对病理学AI领域的影响是多层面的：

1. 基线应该被重新设计

过去的研究在比较专用模型和通用LLM时，使用的LLM基线往往是次优的。这意味着「专用模型更强」的结论可能被系统性地夸大了。未来的研究应该使用经过系统优化的LLM基线，而不是盲目沿用传统的小块+高倍率+多数投票方案。

2. 领域特定训练的必要性被重新评估

如果通用LLM通过输入优化就能接近甚至超越专用模型，那么花费大量资源进行领域特定训练、架构调整、数据收集的必要性就降低了。对于资源有限的研究者和临床机构，这可能意味着更快速、更便宜的部署路径。

3. 多模态LLM的潜力被低估

通用LLM在视觉任务上的潜力可能比我们想象的大得多。问题不是模型不够「专用」，而是我们没有找到正确的方法让它发挥已有的能力。这就像发现一位天才音乐家不仅会弹钢琴，还会拉小提琴——但之前一直给他一把尺寸不对的琴。

🔮 对未来的启示

输入工程（Input Engineering）将成为一门独立技能：就像提示工程（Prompt Engineering）一样，如何为特定任务设计最佳输入配置（图像块大小、放大倍数、推理模式、数量）将成为AI应用的关键技能。
任务自适应输入：未来的系统可能不需要人工选择配置，而是自动根据任务类型（分类、分级、VQA）调整输入参数。论文已经展示了不同任务的最优配置是不同的。
跨模态的对齐原理：论文的发现不仅适用于病理学图像，也适用于其他视觉任务。核心原则始终是：让输入分布尽可能接近模型的预训练分布，同时提供任务所需的足够信息。

---

🎭 尾声：在十亿像素的房间里，学会正确地开窗

这篇论文让我想到一个禅宗公案：

> 一个弟子问师父：「我如何开悟？」师父说：「看到月亮时，不要指向手指。」

在病理学AI中，我们过去过于关注「手指」（模型架构、参数数量、训练数据），而忽略了「月亮」（输入配置、如何呈现信息）。我们建造了越来越精密的显微镜，但忘记了问：观察的方式是否本身就是问题的一部分？

Kian Weihrauch、Thomas Buckley、William Lotter和Arjun Manrai的这项工作，优雅地提醒我们：在十亿像素的房间里，窗户的位置、大小、数量和视角，可能比房间里本身的内容更重要。 因为再好的眼睛，如果看向了错误的方向，看到的也只是黑暗。

对于通用LLM而言，它不是一个「差学生」——它只是一个被放在了错误座位上的学生。给它正确的窗户，它就能从十亿像素的迷宫里，读出生命的密码。

---

📚 参考文献

1. Weihrauch, K. R., Buckley, T. A., Lotter, W., & Manrai, A. K. (2026). How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology. *arXiv preprint arXiv:2606.12407*.

2. Lotter, W., et al. MultiPathQA: A benchmark for pathology question answering on whole-slide images. *(论文引用，具体信息需查阅原始文献)*

3. Giącomo, F., et al. GIANT: A multimodal agent for pathology. *(论文引用，具体信息需查阅原始文献)*

4. SlideChat, MedGemma, PathAgent等专用模型相关文献，详见论文参考文献部分。

5. GTEx Consortium (2013). The Genotype-Tissue Expression (GTEx) project. *Nature Genetics*, 45(6), 580-585.

6. TCGA Research Network (2008). The Cancer Genome Atlas: A 3D map of the human genome. *(详见tcga-data.nci.nih.gov)*

7. CPTAC Consortium (临床蛋白质组学肿瘤分析联盟). *(详见proteomics.cancer.gov)*

---

*本文解读基于 arXiv:2606.12407，作者为 MIT 和 Harvard Medical School 的研究团队。所有数据引用自原始论文。如有理解偏差，责任在解读者。*

---

#论文 #arXiv #AI #病理学 #小凯

在十亿像素的房间里开窗：一篇病理学论文如何教会我们「看见」的艺术

在十亿像素的房间里开窗：一篇病理学论文如何教会我们「看见」的艺术

🎭 开场：一个关于「窗户」的寓言

🔬 第一章：十亿像素的迷宫与「窗户」的困境

🧩 为什么病理学图像如此特殊？

🪟 现有基线方法：一扇扇独立的小窗

🤔 核心问题：专用模型真的更强，还是基线被低估了？

🧪 第二章：72种窗户的实验——一场系统性的「开窗」工程

🏗️ 四因子、72种配置的实验设计

📊 数据集：五个病理学任务，一张全景图

🔄 三阶段评估策略：从探索到验证

🏆 第三章：第一个惊人发现——推理模式：独立投票 vs 联合俯瞰

🗳️ 多数投票的陷阱：民主不是万能的

🌐 全合一的力量：俯瞰全局的侦探

📈 数据说话：推理模式是最主导的因素

🔍 第四章：第二个发现——图像块大小：窗口不是越小越好

🔬 为什么224×224成了「默认」？

📐 大窗户的优势：语境是诊断的生命线

🎨 一个关于「视距」的文学隐喻

🔎 第五章：第三个发现——放大倍数：高倍率不是万能的

🔬 20×：病理学家的黄金标准，LLM的陷阱

🏙️ 城市类比：从高空俯瞰 vs 显微镜下的街角

⚠️ 重要例外：PANDA需要细胞级细节

📊 第六章：第四个发现——图像块数量：边际效益递减的法则

🎰 更多的窗户不一定更好

💰 成本考量：每多加一扇窗都是钱

🏅 第七章：革命性的结果——从「表现差」到「超越专用模型」

📈 与先前工作的直接对比

🤯 超越专用模型：通用LLM的逆袭

🔬 平衡配置的威力：一个配置，多处提升

🧠 第八章：为什么这些「微不足道」的选择如此重要？

🎯 对齐原则：预训练分布与输入分布的匹配

🔗 推理模式：从「投票民主」到「全局推理」

🧮 交互效应：不是简单叠加，而是复杂交织

🌏 第九章：混合放大倍数的消融——多尺度是不是更优？

🔄 一个自然的想法：同时给不同倍率

🤔 为什么混合不如单一优化？

📐 第十章：视野分析——像素数不是唯一的故事

🗺️ 总视野 = 覆盖面积，但不等于理解深度

🎨 回到佩雷克的隐喻

🏛️ 第十一章：对病理学AI的深远影响

🔄 基线方法论的重新审视

🔮 对未来的启示

🎭 尾声：在十亿像素的房间里，学会正确地开窗

📚 参考文献

🌟 智谱 GLM-5 已上线