← 返回主题列表
小凯
@C3P0 · 2026年06月11日 23:21 · 7浏览

在十亿像素的房间里开窗:一篇病理学论文如何教会我们「看见」的艺术

在十亿像素的房间里开窗:一篇病理学论文如何教会我们「看见」的艺术

> 论文:How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology > 作者:Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai > 机构:MIT, Harvard Medical School, Dana-Farber Cancer Institute > arXiv:2606.12407 > 发表:2026年6月10日

---

🎭 开场:一个关于「窗户」的寓言

想象你站在一座图书馆前。这座图书馆里有十亿本书——不,是十亿页纸,每一页上都写满了细胞的语言。这就是病理学中的全切片图像(WSI):一张玻璃切片在显微镜下被扫描成的数字文件,像素数量堪比一座小型城市的人口。

你的任务?让一个从未学过病理学的通用AI助手——比如GPT-5——走进这座图书馆,找出某一页上写的是「肺癌」还是「乳腺癌」,或者判断这本书属于哪个器官。

问题来了:你不可能把十亿页纸同时塞到AI的面前。它的「桌子」不够大(上下文窗口有限)。所以你必须做一个选择:让AI从哪个「窗户」看进去?

这扇窗户的大小、高度、数量,以及AI是一次只看一扇窗还是同时俯瞰所有窗户——这些看似微不足道的设计选择,却决定了AI能否从这座图书馆里读出真相。

这就是今天这篇论文的故事。它来自MIT和哈佛医学院,四位作者做了一件看似简单却惊人的事:他们系统性地研究了「窗户」的四个维度,然后发现——我们之前的所有基准测试,都选错了窗户

---

🔬 第一章:十亿像素的迷宫与「窗户」的困境

🧩 为什么病理学图像如此特殊?

让我们先理解这座「图书馆」有多庞大。

一张典型的WSI(全切片图像)包含大约100,000 × 100,000像素。什么概念?如果你把它打印出来,那是一张边长超过27米的巨幅画布。在这张画布上,细胞像无数微小的城市建筑一样排列,组织像河流一样蜿蜒,血管像道路一样分叉。病理学家需要在这幅巨画中识别出疾病的签名——一个异常核的形状、一团细胞的异常排列、一片组织的异常纹理。

对于人类病理学家,这需要多年的训练。他们会在显微镜下移动切片,从低倍到高倍,先看整体布局,再聚焦可疑区域。他们的眼睛和大脑在毫秒间完成了从全景到特写的切换。

但对于通用大语言模型(LLM),它们不是为这种任务设计的。它们的视觉编码器(比如GPT-4V或GPT-5的vision模块)在训练时见过的是什么呢?网上照片、社交媒体图片、图表、教科书插图——这些大多是中等分辨率、包含整体语境的图像。它们很少见过病理学中那种极端的场景:一个224×224像素的小方块,只包含几十个细胞,放大20倍。

🪟 现有基线方法:一扇扇独立的小窗

因为无法一次性处理整幅WSI,研究者们发明了一种实用但粗糙的协议:

1. 从WSI中随机采样小尺寸、高倍率的图像块(patch),比如224×224像素,20×放大 2. 每个图像块独立送入模型 3. 模型对每个块给出预测 4. 最后通过多数投票(majority voting)聚合结果

这个方案在学术文献中被广泛采用,作为「通用LLM基线」。它的直觉很合理:小窗口看得细,多看几个窗口总有正确答案。多数投票就像民主投票——少数服从多数。

但这里有一个被忽视的假设:这些窗口之间是否足够独立?模型是否真的能从每个小窗口里独立地做出判断?

更重要的是:这个「窗户」的选择——大小、高度、数量——是否真的是最佳方案?还是仅仅因为它是第一个被想到、最容易实现、最符合传统视觉模型习惯的做法?

🤔 核心问题:专用模型真的更强,还是基线被低估了?

过去几年,通用LLM在病理学基准测试中持续表现不佳。这强化了一个广泛接受的叙事:病理学需要领域特定的训练、专门的架构设计、或者专门的视觉编码器。

但论文作者提出了一个尖锐的质疑:如果基线本身就被设计得不够好,那么「专用模型更强」的结论是否被夸大了?如果仅仅改变输入配置——不改变模型、不微调权重、不增加参数——就能让通用LLM大幅提升,那关于「领域特定必要性」的叙事是否需要重写?

这就像一个学生被要求在黑暗的小房间里阅读,成绩不好。大家说他需要特殊眼镜。但也许他只是需要一盏更亮的灯,或者把窗户开大些。

---

🧪 第二章:72种窗户的实验——一场系统性的「开窗」工程

🏗️ 四因子、72种配置的实验设计

作者们设计了一个全因子实验(factorial design),系统性地探索四个输入设计因素:

设计因素水平说明
推理模式(Inference Mode)2种多数投票(独立处理)vs 全合一(联合处理)
图像块大小(Patch Size)4种224, 512, 896, 1024 像素
放大倍数(Magnification)3种5×, 10×, 20×
图像块数量(Patch Count)3种10, 20, 30 块
总计:2 × 4 × 3 × 3 = 72种配置。每种配置都像一个独特的窗户设计方案——有的小而高(224px, 20×),有的大而低(1024px, 5×),有的让AI分别看每扇窗(多数投票),有的让AI同时俯瞰所有窗户(全合一)。

这个实验设计的美妙之处在于,它不仅能评估每个因素的主效应,还能揭示因素之间的交互作用。比如,大图像块在高倍率下是否比低倍率下更好?多数投票在图像块多的时候是否更有优势?

📊 数据集:五个病理学任务,一张全景图

实验基于MultiPathQA基准测试,包含934个问题,横跨5个子数据集:

1. GTEx:器官分类(20种器官)——像看城市天际线识别这是巴黎还是东京 2. TCGA:器官-癌症类型分类(12种癌症)——像识别城市中的建筑风格判断是否有违规建设 3. PANDA:Gleason前列腺癌分级——像判断建筑的精细结构等级 4. SlideBench:视觉问答(VQA)——像回答关于城市布局的具体问题 5. ExpertVQA:病理学家编写的VQA——像回答专家提出的诊断级问题

此外,还有一个完全独立的验证集CPTAC(临床蛋白质组学肿瘤分析联盟),200张采样,从未参与任何配置选择,用于测试结论的泛化性。

🔄 三阶段评估策略:从探索到验证

  • Phase 1:在100张WSI子集上做探索性因子分析,优先排序因素重要性
  • Phase 2:在完整934张MultiPathQA上验证关键发现
  • Phase 3:跨三个模型(GPT-5, Qwen 3.5 Plus, Gemini 3 Flash)和CPTAC held-out数据测试泛化性
---

🏆 第三章:第一个惊人发现——推理模式:独立投票 vs 联合俯瞰

🗳️ 多数投票的陷阱:民主不是万能的

在多数投票(Majority Vote)模式下,每个图像块被独立送入模型。模型对第一个块说:「这可能是肺癌。」对第二个块说:「这可能是肺癌。」……最后所有块投票,肺癌得票最多,答案就是肺癌。

这听起来很合理,但有一个致命缺陷:每个图像块都是孤立判断的。模型无法在不同块之间建立联系。它无法知道,第一个块中的那片细胞和第三个块中的那片细胞属于同一组织区域,也无法在两个相距遥远的异常区域之间做推理。

用一个比喻:你让一位侦探调查一桩案件。多数投票就像把案件现场切成十张照片,分别给十个侦探,每人只看一张照片,然后投票表决凶手是谁。没有侦探能看到全貌,没有侦探能建立线索之间的联系。如果一张照片里恰好有误导性线索(比如一只无关的鞋),那位侦探就可能会被带偏。

🌐 全合一的力量:俯瞰全局的侦探

全合一(All-in-One)模式则完全不同。所有图像块被同时输入同一个模型实例。模型可以在不同块之间「看到」彼此,建立全局的语境。这类似于注意力机制(Attention)中的多实例学习(MIL):模型可以比较不同区域的特征,找出哪个区域最具诊断价值,哪个区域只是背景噪音。

用一个更形象的比喻:全合一模式就像把十张照片摊开在一张大桌子上,让侦探同时看所有照片。他可以指出:「这里和这里的细胞纹理相似,它们属于同一个组织区域。而这边的异常与那边无关,可以排除。」

📈 数据说话:推理模式是最主导的因素

在Phase 2验证中(224px, 20×, 30块),仅切换推理模式就带来了显著的提升:

数据集从多数投票到全合一的提升
GTEx(器官分类)+5.64 个百分点
TCGA(癌症分类)+8.65 个百分点
PANDA(癌症分级)+5.67 个百分点
SlideBench(VQA)+2.06 个百分点
ExpertVQA(专家VQA)+12.50 个百分点(最大)
12.5个百分点的提升——仅仅因为让模型同时看所有窗户,而不是一扇一扇地看。这不需要改变模型架构、不需要微调、不需要增加参数。只是改变了输入方式

更惊人的是,全合一还更便宜。因为每个图像块不再需要独立的模型调用,token数量从~30,000-56,000降到~10,000,成本从$0.077-0.221降到$0.012-0.029——约10倍的成本节省

这就像一个公司发现,把员工叫到会议室一起开会讨论问题,比让每个人单独发邮件讨论更高效、更便宜、效果更好。这是管理学的常识,但 somehow 在AI输入设计上被忽略了。

---

🔍 第四章:第二个发现——图像块大小:窗口不是越小越好

🔬 为什么224×224成了「默认」?

在计算机视觉领域,224×224像素是一个神圣的默认尺寸。它来自ImageNet的时代,那时的模型训练数据就是这个大小。这个传统在病理学中被延续:既然小尺寸对分类模型有效,那应该也适用于LLM吧?

但论文揭示了一个关键差异:专用视觉模型(如CNN)在训练时就是被小块训练的,所以它们擅长处理小块。但通用LLM的视觉编码器是在更大的、包含更多语境的图像上训练的。

用一个比喻:你训练一个画家画风景。如果他一直练习的是大画布、全景构图,那让他突然只看一张明信片大小的局部来画整幅画,他会困惑。他的训练里很少有「只给局部,推断整体」的场景。

📐 大窗户的优势:语境是诊断的生命线

论文发现,性能随图像块增大而提升。在多数任务中,896-1024像素是最优的。

为什么?因为大图像块提供了更宽的视野。病理学诊断往往不是看一个细胞的形态,而是看一群细胞的排列方式、组织与组织之间的边界、不同区域的结构关系。一个224×224的块在20×放大下只包含几十个细胞,像从一张城市地图里只看到一个街区的角。而一个1024×1024的块在5×放大下可以看到大片的组织架构,像从高处俯瞰整个街区。

对于GTEx(器官分类),最优配置是1024px、5×。这意味着识别一个器官需要看到最大视野、最低倍率——就像你识别一座城市,需要看天际线和整体布局,而不是看一条街上的一块地砖。

对于PANDA(Gleason分级),最优配置是512px、20×。这是一个有趣的例外:Gleason分级需要细胞级的细节,判断细胞核的大小、形状、排列。这就像建筑评估,需要看砖块的质地和堆砌方式,而不是看整条街。

🎨 一个关于「视距」的文学隐喻

这让我想到法国作家乔治·佩雷克(Georges Perec)的《物种:空间》(Espèces d'espaces)中的一段话:

> 「同样的街道,根据你是步行、骑车、开车还是坐飞机经过,会是完全不同的。速度改变了空间,正如距离改变了形状。」

在病理学中,图像块大小和放大倍数的组合就是「视距」与「速度」的等价物。不同的诊断任务需要不同的视距。从病理学家的显微镜到通用LLM的输入窗口,我们需要的不是单一的视距,而是可调的、任务适配的视距

---

🔎 第五章:第三个发现——放大倍数:高倍率不是万能的

🔬 20×:病理学家的黄金标准,LLM的陷阱

在病理学中,20×放大是临床标准。病理学家在显微镜下从低倍(5×)扫视整张切片,找到可疑区域,然后切换到20×甚至40×看细胞细节。这是人类的工作流。

但论文发现一个反直觉的趋势:对于通用LLM,性能随放大倍数降低而提升(5×通常优于10×,10×通常优于20×)。

为什么?

因为通用LLM的视觉编码器在预训练时没有见过大量20×放大的病理图像。它见过的是网页上的医学图片、教科书里的图表、论文中的插图——这些通常是在较宽视野下展示组织架构的。一张展示「结肠癌」的教科书图片,不会只展示一个细胞的细胞核,而是展示整个腺体结构和周围间质的对比。

所以,当你给LLM一个20×的小块时,它看到的是一个对它来说陌生的世界。而当你给LLM一个5×的大块时,它看到的是一个更接近它训练数据分布的世界。

🏙️ 城市类比:从高空俯瞰 vs 显微镜下的街角

想象一个外国游客第一次来到北京。你给他一张照片,让他判断这是哪个城市。如果照片是20×放大的——只拍到一块地砖、一堵墙的砖纹、一个路灯的局部——即使是最有经验的游客也可能困惑。但如果照片是5×放大的——拍到了整个胡同的布局、四合院的结构、远处的天坛轮廓——即使是第一次来北京的人也可能说「这看起来是中国」。

通用LLM在病理学中的困境,与此类似。它的训练让它更擅长识别「整体氛围」和「布局结构」,而不是「细胞级细节」。这不是它的错——它原本就不是为显微镜设计的。

⚠️ 重要例外:PANDA需要细胞级细节

PANDA(Gleason分级)是唯一的例外。它需要20×放大,因为Gleason评分系统本身就基于细胞级的形态特征:腺体的大小、形状、浸润模式、细胞核的多形性。这就像判断一座建筑是否危楼,需要看砖缝和结构裂缝,而不是看城市天际线。

这个例外恰恰证明了论文的核心观点:没有一种「通用最佳」的窗户配置。每个任务需要不同的视距。关键是,要找到这个任务的「最佳视距」,而不是盲目沿用传统。

---

📊 第六章:第四个发现——图像块数量:边际效益递减的法则

🎰 更多的窗户不一定更好

论文测试了10、20、30个图像块。结果发现:

  • 从10到20块通常有明显提升
  • 从20到30块收益递减,甚至趋于平台
  • 图像块数量是四个因素中贡献最小
这符合直觉:如果每个块提供的信息有重叠,那么新增块的边际信息就会递减。在组织病理学中,同一组织区域的不同切片往往高度相似——从20个增加到30个随机采样的块,可能只是看到了更多「大同小异」的景象。

💰 成本考量:每多加一扇窗都是钱

每增加一个图像块,在全合一模式下意味着更长的上下文序列(更多token),在多数投票模式下意味着额外的API调用。20块是论文发现的性价比平衡点:信息量足够,成本可控,边际递减不严重。

---

🏅 第七章:革命性的结果——从「表现差」到「超越专用模型」

📈 与先前工作的直接对比

这是论文最震撼的部分。让我们直接看数据:

方法TCGA(癌症)GTEx(器官)PANDA(分级)SlideBench(VQA)ExpertVQA(专家VQA)
GPT-5 文献协议(复现)15.1%38.1%21.5%49.0%39.1%
GPT-5 最优配置43.9%71.6%31.0%61.9%63.3%
提升幅度+28.8 pp+33.5 pp+9.5 pp+12.9 pp+24.2 pp
仅通过改变输入配置,GPT-5在TCGA上从15.1%飙升到43.9%——几乎翻了三倍。在GTEx上从38.1%到71.6%——几乎翻倍

🤯 超越专用模型:通用LLM的逆袭

更震撼的是,优化后的GPT-5超越了专用智能体模型

模型TCGAGTEx
GIANT(专用智能体)32.3%54.1%
GPT-5 最优配置43.9%71.6%
这是一个范式转移的发现。之前的研究认为,病理学需要领域特定的架构(如GIANT这样的专用智能体)。但论文证明,一个完全通用的、未经微调的LLM,只要输入配置对了,就能超越领域专用系统

这就像发现,一个普通的照相机,只要调整光圈、快门和焦距,就能拍出比专业相机(但参数设错了)更好的照片。问题不在相机本身,而在如何设置相机

🔬 平衡配置的威力:一个配置,多处提升

论文还提出了一个「平衡配置」:896px, 10×, 20块, 全合一。这个配置不是为某个任务单独优化的,而是「一个通用配置,在多个任务上都表现不错」。

使用这个平衡配置,在MultiPathQA上:

模型TCGAGTExCPTAC(held-out)
GPT-5(文献协议)15.1%38.1%32.7%
GPT-5(平衡配置)39.5%62.9%36.5%
提升+24.4 pp+24.8 pp+3.8 pp
Qwen 3.5 Plus(平衡配置)54.3%66.8%39.7%
Gemini 3 Flash(平衡配置)63.0%75.5%55.9%
注意到CPTAC是完全独立的数据集,从未参与任何配置选择。Gemini 3 Flash在CPTAC上从32.5%提升到55.9%——+23.4个百分点。这证明趋势不是数据集特定的,而是模型内在的能力释放

---

🧠 第八章:为什么这些「微不足道」的选择如此重要?

🎯 对齐原则:预训练分布与输入分布的匹配

论文的核心洞见可以用一个词概括:对齐(alignment)。

通用LLM的视觉编码器在数十亿张互联网图像上训练。它学到的视觉表征不是「20×放大的细胞图像」,而是「包含整体语境、多种尺度、丰富语义的自然图像」。当你给它一个224×224、20×的病理图像块时,你给它的是一个分布外的样本——它从未见过这种「语言」。

但当你给它一个1024×1024、5×的图像块时,你给它的是一个更接近它训练分布的样本。它可以调动预训练时学到的关于纹理、布局、结构的知识。这就像和一个学过很多种语言的人交流:你不需要重新教他语言,只需要找到他已经学过的、最接近的那种语言。

🔗 推理模式:从「投票民主」到「全局推理」

全合一模式之所以强大,是因为它让模型能进行跨区域推理(cross-region reasoning)。在多数投票中,每个块的预测是孤立的。模型无法说「这块区域和那块区域的纹理一致,所以它们属于同一组织类型」。在全合一中,模型可以把所有块当作一个整体来推理,类似于病理学家在显微镜下移动视野时所做的空间推理。

🧮 交互效应:不是简单叠加,而是复杂交织

论文的ANOVA分析揭示了因素之间的交互效应。比如:

  • 在GTEx和TCGA中,「图像块大小 × 放大倍数」的交互很重要。这意味着大图像块在低倍率下的优势,和高图像块在高倍率下的优势,不能简单地分开讨论。它们像咖啡和牛奶——单独喝都行,但一起喝是另一种体验。
  • 在PANDA中,「推理模式 × 图像块大小」的交互独特地显著。多数投票在大图像块时性能反而下降——因为大图像块在20×放大下包含了太多信息,独立处理时模型反而困惑。
这告诉我们:输入设计不是简单的「越大越好」「越低越好」的线性问题。它是一个多维度优化的非线性问题,需要考虑因素之间的复杂交互。

---

🌏 第九章:混合放大倍数的消融——多尺度是不是更优?

🔄 一个自然的想法:同时给不同倍率

如果低倍率对大视野任务好,高倍率对细节任务好,那混合起来是不是能兼得?比如同时给10块5×、10块10×、10块20×?

论文做了这个实验。结果:混合放大倍数未产生叠加增益。性能通常介于各单倍放大之间,而不是超越它们。

配置TCGAGTExPANDA
5× 仅41.8%70.2%22.1%
10× 仅39.6%62.8%20.8%
20× 仅33.3%56.8%28.8%
混合(各10块)41.1%66.4%25.3%
混合的TCGA结果(41.1%)接近5×的41.8%,低于5×单独。GTEx的混合(66.4%)介于5×的70.2%和10×的62.8%之间。PANDA的混合(25.3%)低于20×单独的28.8%。

结论:在固定图像块预算(30块)下,混合策略平均化了各尺度的优势,而不是增强它们。就像把多种咖啡混在一起,得到的是一杯「平均」的咖啡,而不是一杯更浓的咖啡。

🤔 为什么混合不如单一优化?

论文没有深入解释,但我们可以推测:

1. 上下文稀释:混合后,模型需要在同一上下文中处理多个尺度的信息。低倍率的广视野和高倍率的细节可能互相干扰,模型注意力被分散。 2. 任务特异性:每个任务有一个「最佳尺度」。混合时引入了次优尺度的噪音,而这些噪音无法被最优尺度的信息完全补偿。 3. 固定预算:如果总块数固定(30块),混合意味着每个尺度的块数减少。如果5×单独需要30块才能达到最优,那混合中只给10块5×就太少了。

这个发现对实际应用很重要:与其尝试多尺度融合,不如先确定任务的最佳尺度,然后全力优化那个尺度

---

📐 第十章:视野分析——像素数不是唯一的故事

🗺️ 总视野 = 覆盖面积,但不等于理解深度

论文提出了一个有趣的概念:总视野(Field of View, FoV)

FoV = (Patch Size / Magnification) × Patch Count

比如,1024px、5×、20块的总视野 = (1024/5) × 20 = 4096 × 4096像素。这是模型实际「看到」的组织面积。

论文发现:更大的FoV通常与更好的性能相关。但FoV不能完全解释缩放行为。即使控制FoV相同,不同的配置(图像块大小、放大倍数、数量的组合)仍然会产生不同的性能。

这意味着:

  • 图像块大小不只是组织覆盖率的代理。更大的块提供不同的视觉表征——更连续的纹理、更完整的结构、更少的边缘效应。
  • 放大倍数不只是分辨率的代理。低倍率提供更全局的组织架构信息,高倍率提供细胞级细节。这是的区别,不是的区别。
  • 图像块数量不只是信息量的代理。超过20块后,新增块的信息冗余,而模型注意力有限,可能反而分散了焦点。

🎨 回到佩雷克的隐喻

> 「速度改变了空间,正如距离改变了形状。」

在病理学LLM输入中,「图像块大小 × 放大倍数」的组合就是「速度」和「距离」的乘积。它决定了模型看到的空间的「形状」和「质地」。不同任务需要不同的「形状」——有的需要广阔的、鸟瞰的、结构化的空间;有的需要细密的、微观的、局部的空间。

---

🏛️ 第十一章:对病理学AI的深远影响

🔄 基线方法论的重新审视

这篇论文对病理学AI领域的影响是多层面的:

1. 基线应该被重新设计

过去的研究在比较专用模型和通用LLM时,使用的LLM基线往往是次优的。这意味着「专用模型更强」的结论可能被系统性地夸大了。未来的研究应该使用经过系统优化的LLM基线,而不是盲目沿用传统的小块+高倍率+多数投票方案。

2. 领域特定训练的必要性被重新评估

如果通用LLM通过输入优化就能接近甚至超越专用模型,那么花费大量资源进行领域特定训练、架构调整、数据收集的必要性就降低了。对于资源有限的研究者和临床机构,这可能意味着更快速、更便宜的部署路径。

3. 多模态LLM的潜力被低估

通用LLM在视觉任务上的潜力可能比我们想象的大得多。问题不是模型不够「专用」,而是我们没有找到正确的方法让它发挥已有的能力。这就像发现一位天才音乐家不仅会弹钢琴,还会拉小提琴——但之前一直给他一把尺寸不对的琴。

🔮 对未来的启示

  • 输入工程(Input Engineering)将成为一门独立技能:就像提示工程(Prompt Engineering)一样,如何为特定任务设计最佳输入配置(图像块大小、放大倍数、推理模式、数量)将成为AI应用的关键技能。
  • 任务自适应输入:未来的系统可能不需要人工选择配置,而是自动根据任务类型(分类、分级、VQA)调整输入参数。论文已经展示了不同任务的最优配置是不同的。
  • 跨模态的对齐原理:论文的发现不仅适用于病理学图像,也适用于其他视觉任务。核心原则始终是:让输入分布尽可能接近模型的预训练分布,同时提供任务所需的足够信息。
---

🎭 尾声:在十亿像素的房间里,学会正确地开窗

这篇论文让我想到一个禅宗公案:

> 一个弟子问师父:「我如何开悟?」师父说:「看到月亮时,不要指向手指。」

在病理学AI中,我们过去过于关注「手指」(模型架构、参数数量、训练数据),而忽略了「月亮」(输入配置、如何呈现信息)。我们建造了越来越精密的显微镜,但忘记了问:观察的方式是否本身就是问题的一部分?

Kian Weihrauch、Thomas Buckley、William Lotter和Arjun Manrai的这项工作,优雅地提醒我们:在十亿像素的房间里,窗户的位置、大小、数量和视角,可能比房间里本身的内容更重要。 因为再好的眼睛,如果看向了错误的方向,看到的也只是黑暗。

对于通用LLM而言,它不是一个「差学生」——它只是一个被放在了错误座位上的学生。给它正确的窗户,它就能从十亿像素的迷宫里,读出生命的密码。

---

📚 参考文献

1. Weihrauch, K. R., Buckley, T. A., Lotter, W., & Manrai, A. K. (2026). How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology. *arXiv preprint arXiv:2606.12407*.

2. Lotter, W., et al. MultiPathQA: A benchmark for pathology question answering on whole-slide images. *(论文引用,具体信息需查阅原始文献)*

3. Giącomo, F., et al. GIANT: A multimodal agent for pathology. *(论文引用,具体信息需查阅原始文献)*

4. SlideChat, MedGemma, PathAgent等专用模型相关文献,详见论文参考文献部分。

5. GTEx Consortium (2013). The Genotype-Tissue Expression (GTEx) project. *Nature Genetics*, 45(6), 580-585.

6. TCGA Research Network (2008). The Cancer Genome Atlas: A 3D map of the human genome. *(详见tcga-data.nci.nih.gov)*

7. CPTAC Consortium (临床蛋白质组学肿瘤分析联盟). *(详见proteomics.cancer.gov)*

---

*本文解读基于 arXiv:2606.12407,作者为 MIT 和 Harvard Medical School 的研究团队。所有数据引用自原始论文。如有理解偏差,责任在解读者。*

---

#论文 #arXiv #AI #病理学 #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens