在十亿像素的房间里开窗:一篇病理学论文如何教会我们「看见」的艺术
在十亿像素的房间里开窗:一篇病理学论文如何教会我们「看见」的艺术
> 论文:How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology > 作者:Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai > 机构:MIT, Harvard Medical School, Dana-Farber Cancer Institute > arXiv:2606.12407 > 发表:2026年6月10日
---
🎭 开场:一个关于「窗户」的寓言
想象你站在一座图书馆前。这座图书馆里有十亿本书——不,是十亿页纸,每一页上都写满了细胞的语言。这就是病理学中的全切片图像(WSI):一张玻璃切片在显微镜下被扫描成的数字文件,像素数量堪比一座小型城市的人口。
你的任务?让一个从未学过病理学的通用AI助手——比如GPT-5——走进这座图书馆,找出某一页上写的是「肺癌」还是「乳腺癌」,或者判断这本书属于哪个器官。
问题来了:你不可能把十亿页纸同时塞到AI的面前。它的「桌子」不够大(上下文窗口有限)。所以你必须做一个选择:让AI从哪个「窗户」看进去?
这扇窗户的大小、高度、数量,以及AI是一次只看一扇窗还是同时俯瞰所有窗户——这些看似微不足道的设计选择,却决定了AI能否从这座图书馆里读出真相。
这就是今天这篇论文的故事。它来自MIT和哈佛医学院,四位作者做了一件看似简单却惊人的事:他们系统性地研究了「窗户」的四个维度,然后发现——我们之前的所有基准测试,都选错了窗户。
---
🔬 第一章:十亿像素的迷宫与「窗户」的困境
🧩 为什么病理学图像如此特殊?
让我们先理解这座「图书馆」有多庞大。
一张典型的WSI(全切片图像)包含大约100,000 × 100,000像素。什么概念?如果你把它打印出来,那是一张边长超过27米的巨幅画布。在这张画布上,细胞像无数微小的城市建筑一样排列,组织像河流一样蜿蜒,血管像道路一样分叉。病理学家需要在这幅巨画中识别出疾病的签名——一个异常核的形状、一团细胞的异常排列、一片组织的异常纹理。
对于人类病理学家,这需要多年的训练。他们会在显微镜下移动切片,从低倍到高倍,先看整体布局,再聚焦可疑区域。他们的眼睛和大脑在毫秒间完成了从全景到特写的切换。
但对于通用大语言模型(LLM),它们不是为这种任务设计的。它们的视觉编码器(比如GPT-4V或GPT-5的vision模块)在训练时见过的是什么呢?网上照片、社交媒体图片、图表、教科书插图——这些大多是中等分辨率、包含整体语境的图像。它们很少见过病理学中那种极端的场景:一个224×224像素的小方块,只包含几十个细胞,放大20倍。
🪟 现有基线方法:一扇扇独立的小窗
因为无法一次性处理整幅WSI,研究者们发明了一种实用但粗糙的协议:
1. 从WSI中随机采样小尺寸、高倍率的图像块(patch),比如224×224像素,20×放大 2. 每个图像块独立送入模型 3. 模型对每个块给出预测 4. 最后通过多数投票(majority voting)聚合结果
这个方案在学术文献中被广泛采用,作为「通用LLM基线」。它的直觉很合理:小窗口看得细,多看几个窗口总有正确答案。多数投票就像民主投票——少数服从多数。
但这里有一个被忽视的假设:这些窗口之间是否足够独立?模型是否真的能从每个小窗口里独立地做出判断?
更重要的是:这个「窗户」的选择——大小、高度、数量——是否真的是最佳方案?还是仅仅因为它是第一个被想到、最容易实现、最符合传统视觉模型习惯的做法?
🤔 核心问题:专用模型真的更强,还是基线被低估了?
过去几年,通用LLM在病理学基准测试中持续表现不佳。这强化了一个广泛接受的叙事:病理学需要领域特定的训练、专门的架构设计、或者专门的视觉编码器。
但论文作者提出了一个尖锐的质疑:如果基线本身就被设计得不够好,那么「专用模型更强」的结论是否被夸大了?如果仅仅改变输入配置——不改变模型、不微调权重、不增加参数——就能让通用LLM大幅提升,那关于「领域特定必要性」的叙事是否需要重写?
这就像一个学生被要求在黑暗的小房间里阅读,成绩不好。大家说他需要特殊眼镜。但也许他只是需要一盏更亮的灯,或者把窗户开大些。
---
🧪 第二章:72种窗户的实验——一场系统性的「开窗」工程
🏗️ 四因子、72种配置的实验设计
作者们设计了一个全因子实验(factorial design),系统性地探索四个输入设计因素:
| 设计因素 | 水平 | 说明 |
|---|---|---|
| 推理模式(Inference Mode) | 2种 | 多数投票(独立处理)vs 全合一(联合处理) |
| 图像块大小(Patch Size) | 4种 | 224, 512, 896, 1024 像素 |
| 放大倍数(Magnification) | 3种 | 5×, 10×, 20× |
| 图像块数量(Patch Count) | 3种 | 10, 20, 30 块 |
这个实验设计的美妙之处在于,它不仅能评估每个因素的主效应,还能揭示因素之间的交互作用。比如,大图像块在高倍率下是否比低倍率下更好?多数投票在图像块多的时候是否更有优势?
📊 数据集:五个病理学任务,一张全景图
实验基于MultiPathQA基准测试,包含934个问题,横跨5个子数据集:
1. GTEx:器官分类(20种器官)——像看城市天际线识别这是巴黎还是东京 2. TCGA:器官-癌症类型分类(12种癌症)——像识别城市中的建筑风格判断是否有违规建设 3. PANDA:Gleason前列腺癌分级——像判断建筑的精细结构等级 4. SlideBench:视觉问答(VQA)——像回答关于城市布局的具体问题 5. ExpertVQA:病理学家编写的VQA——像回答专家提出的诊断级问题
此外,还有一个完全独立的验证集CPTAC(临床蛋白质组学肿瘤分析联盟),200张采样,从未参与任何配置选择,用于测试结论的泛化性。
🔄 三阶段评估策略:从探索到验证
- Phase 1:在100张WSI子集上做探索性因子分析,优先排序因素重要性
- Phase 2:在完整934张MultiPathQA上验证关键发现
- Phase 3:跨三个模型(GPT-5, Qwen 3.5 Plus, Gemini 3 Flash)和CPTAC held-out数据测试泛化性
🏆 第三章:第一个惊人发现——推理模式:独立投票 vs 联合俯瞰
🗳️ 多数投票的陷阱:民主不是万能的
在多数投票(Majority Vote)模式下,每个图像块被独立送入模型。模型对第一个块说:「这可能是肺癌。」对第二个块说:「这可能是肺癌。」……最后所有块投票,肺癌得票最多,答案就是肺癌。
这听起来很合理,但有一个致命缺陷:每个图像块都是孤立判断的。模型无法在不同块之间建立联系。它无法知道,第一个块中的那片细胞和第三个块中的那片细胞属于同一组织区域,也无法在两个相距遥远的异常区域之间做推理。
用一个比喻:你让一位侦探调查一桩案件。多数投票就像把案件现场切成十张照片,分别给十个侦探,每人只看一张照片,然后投票表决凶手是谁。没有侦探能看到全貌,没有侦探能建立线索之间的联系。如果一张照片里恰好有误导性线索(比如一只无关的鞋),那位侦探就可能会被带偏。
🌐 全合一的力量:俯瞰全局的侦探
全合一(All-in-One)模式则完全不同。所有图像块被同时输入同一个模型实例。模型可以在不同块之间「看到」彼此,建立全局的语境。这类似于注意力机制(Attention)中的多实例学习(MIL):模型可以比较不同区域的特征,找出哪个区域最具诊断价值,哪个区域只是背景噪音。
用一个更形象的比喻:全合一模式就像把十张照片摊开在一张大桌子上,让侦探同时看所有照片。他可以指出:「这里和这里的细胞纹理相似,它们属于同一个组织区域。而这边的异常与那边无关,可以排除。」
📈 数据说话:推理模式是最主导的因素
在Phase 2验证中(224px, 20×, 30块),仅切换推理模式就带来了显著的提升:
| 数据集 | 从多数投票到全合一的提升 |
|---|---|
| GTEx(器官分类) | +5.64 个百分点 |
| TCGA(癌症分类) | +8.65 个百分点 |
| PANDA(癌症分级) | +5.67 个百分点 |
| SlideBench(VQA) | +2.06 个百分点 |
| ExpertVQA(专家VQA) | +12.50 个百分点(最大) |
更惊人的是,全合一还更便宜。因为每个图像块不再需要独立的模型调用,token数量从~30,000-56,000降到~10,000,成本从$0.077-0.221降到$0.012-0.029——约10倍的成本节省。
这就像一个公司发现,把员工叫到会议室一起开会讨论问题,比让每个人单独发邮件讨论更高效、更便宜、效果更好。这是管理学的常识,但 somehow 在AI输入设计上被忽略了。
---
🔍 第四章:第二个发现——图像块大小:窗口不是越小越好
🔬 为什么224×224成了「默认」?
在计算机视觉领域,224×224像素是一个神圣的默认尺寸。它来自ImageNet的时代,那时的模型训练数据就是这个大小。这个传统在病理学中被延续:既然小尺寸对分类模型有效,那应该也适用于LLM吧?
但论文揭示了一个关键差异:专用视觉模型(如CNN)在训练时就是被小块训练的,所以它们擅长处理小块。但通用LLM的视觉编码器是在更大的、包含更多语境的图像上训练的。
用一个比喻:你训练一个画家画风景。如果他一直练习的是大画布、全景构图,那让他突然只看一张明信片大小的局部来画整幅画,他会困惑。他的训练里很少有「只给局部,推断整体」的场景。
📐 大窗户的优势:语境是诊断的生命线
论文发现,性能随图像块增大而提升。在多数任务中,896-1024像素是最优的。
为什么?因为大图像块提供了更宽的视野。病理学诊断往往不是看一个细胞的形态,而是看一群细胞的排列方式、组织与组织之间的边界、不同区域的结构关系。一个224×224的块在20×放大下只包含几十个细胞,像从一张城市地图里只看到一个街区的角。而一个1024×1024的块在5×放大下可以看到大片的组织架构,像从高处俯瞰整个街区。
对于GTEx(器官分类),最优配置是1024px、5×。这意味着识别一个器官需要看到最大视野、最低倍率——就像你识别一座城市,需要看天际线和整体布局,而不是看一条街上的一块地砖。
对于PANDA(Gleason分级),最优配置是512px、20×。这是一个有趣的例外:Gleason分级需要细胞级的细节,判断细胞核的大小、形状、排列。这就像建筑评估,需要看砖块的质地和堆砌方式,而不是看整条街。
🎨 一个关于「视距」的文学隐喻
这让我想到法国作家乔治·佩雷克(Georges Perec)的《物种:空间》(Espèces d'espaces)中的一段话:
> 「同样的街道,根据你是步行、骑车、开车还是坐飞机经过,会是完全不同的。速度改变了空间,正如距离改变了形状。」
在病理学中,图像块大小和放大倍数的组合就是「视距」与「速度」的等价物。不同的诊断任务需要不同的视距。从病理学家的显微镜到通用LLM的输入窗口,我们需要的不是单一的视距,而是可调的、任务适配的视距。
---
🔎 第五章:第三个发现——放大倍数:高倍率不是万能的
🔬 20×:病理学家的黄金标准,LLM的陷阱
在病理学中,20×放大是临床标准。病理学家在显微镜下从低倍(5×)扫视整张切片,找到可疑区域,然后切换到20×甚至40×看细胞细节。这是人类的工作流。
但论文发现一个反直觉的趋势:对于通用LLM,性能随放大倍数降低而提升(5×通常优于10×,10×通常优于20×)。
为什么?
因为通用LLM的视觉编码器在预训练时没有见过大量20×放大的病理图像。它见过的是网页上的医学图片、教科书里的图表、论文中的插图——这些通常是在较宽视野下展示组织架构的。一张展示「结肠癌」的教科书图片,不会只展示一个细胞的细胞核,而是展示整个腺体结构和周围间质的对比。
所以,当你给LLM一个20×的小块时,它看到的是一个对它来说陌生的世界。而当你给LLM一个5×的大块时,它看到的是一个更接近它训练数据分布的世界。
🏙️ 城市类比:从高空俯瞰 vs 显微镜下的街角
想象一个外国游客第一次来到北京。你给他一张照片,让他判断这是哪个城市。如果照片是20×放大的——只拍到一块地砖、一堵墙的砖纹、一个路灯的局部——即使是最有经验的游客也可能困惑。但如果照片是5×放大的——拍到了整个胡同的布局、四合院的结构、远处的天坛轮廓——即使是第一次来北京的人也可能说「这看起来是中国」。
通用LLM在病理学中的困境,与此类似。它的训练让它更擅长识别「整体氛围」和「布局结构」,而不是「细胞级细节」。这不是它的错——它原本就不是为显微镜设计的。
⚠️ 重要例外:PANDA需要细胞级细节
PANDA(Gleason分级)是唯一的例外。它需要20×放大,因为Gleason评分系统本身就基于细胞级的形态特征:腺体的大小、形状、浸润模式、细胞核的多形性。这就像判断一座建筑是否危楼,需要看砖缝和结构裂缝,而不是看城市天际线。
这个例外恰恰证明了论文的核心观点:没有一种「通用最佳」的窗户配置。每个任务需要不同的视距。关键是,要找到这个任务的「最佳视距」,而不是盲目沿用传统。
---
📊 第六章:第四个发现——图像块数量:边际效益递减的法则
🎰 更多的窗户不一定更好
论文测试了10、20、30个图像块。结果发现:
- 从10到20块通常有明显提升
- 从20到30块收益递减,甚至趋于平台
- 图像块数量是四个因素中贡献最小的
💰 成本考量:每多加一扇窗都是钱
每增加一个图像块,在全合一模式下意味着更长的上下文序列(更多token),在多数投票模式下意味着额外的API调用。20块是论文发现的性价比平衡点:信息量足够,成本可控,边际递减不严重。
---
🏅 第七章:革命性的结果——从「表现差」到「超越专用模型」
📈 与先前工作的直接对比
这是论文最震撼的部分。让我们直接看数据:
| 方法 | TCGA(癌症) | GTEx(器官) | PANDA(分级) | SlideBench(VQA) | ExpertVQA(专家VQA) |
|---|---|---|---|---|---|
| GPT-5 文献协议(复现) | 15.1% | 38.1% | 21.5% | 49.0% | 39.1% |
| GPT-5 最优配置 | 43.9% | 71.6% | 31.0% | 61.9% | 63.3% |
| 提升幅度 | +28.8 pp | +33.5 pp | +9.5 pp | +12.9 pp | +24.2 pp |
🤯 超越专用模型:通用LLM的逆袭
更震撼的是,优化后的GPT-5超越了专用智能体模型:
| 模型 | TCGA | GTEx |
|---|---|---|
| GIANT(专用智能体) | 32.3% | 54.1% |
| GPT-5 最优配置 | 43.9% | 71.6% |
这就像发现,一个普通的照相机,只要调整光圈、快门和焦距,就能拍出比专业相机(但参数设错了)更好的照片。问题不在相机本身,而在如何设置相机。
🔬 平衡配置的威力:一个配置,多处提升
论文还提出了一个「平衡配置」:896px, 10×, 20块, 全合一。这个配置不是为某个任务单独优化的,而是「一个通用配置,在多个任务上都表现不错」。
使用这个平衡配置,在MultiPathQA上:
| 模型 | TCGA | GTEx | CPTAC(held-out) |
|---|---|---|---|
| GPT-5(文献协议) | 15.1% | 38.1% | 32.7% |
| GPT-5(平衡配置) | 39.5% | 62.9% | 36.5% |
| 提升 | +24.4 pp | +24.8 pp | +3.8 pp |
| Qwen 3.5 Plus(平衡配置) | 54.3% | 66.8% | 39.7% |
| Gemini 3 Flash(平衡配置) | 63.0% | 75.5% | 55.9% |
---
🧠 第八章:为什么这些「微不足道」的选择如此重要?
🎯 对齐原则:预训练分布与输入分布的匹配
论文的核心洞见可以用一个词概括:对齐(alignment)。
通用LLM的视觉编码器在数十亿张互联网图像上训练。它学到的视觉表征不是「20×放大的细胞图像」,而是「包含整体语境、多种尺度、丰富语义的自然图像」。当你给它一个224×224、20×的病理图像块时,你给它的是一个分布外的样本——它从未见过这种「语言」。
但当你给它一个1024×1024、5×的图像块时,你给它的是一个更接近它训练分布的样本。它可以调动预训练时学到的关于纹理、布局、结构的知识。这就像和一个学过很多种语言的人交流:你不需要重新教他语言,只需要找到他已经学过的、最接近的那种语言。
🔗 推理模式:从「投票民主」到「全局推理」
全合一模式之所以强大,是因为它让模型能进行跨区域推理(cross-region reasoning)。在多数投票中,每个块的预测是孤立的。模型无法说「这块区域和那块区域的纹理一致,所以它们属于同一组织类型」。在全合一中,模型可以把所有块当作一个整体来推理,类似于病理学家在显微镜下移动视野时所做的空间推理。
🧮 交互效应:不是简单叠加,而是复杂交织
论文的ANOVA分析揭示了因素之间的交互效应。比如:
- 在GTEx和TCGA中,「图像块大小 × 放大倍数」的交互很重要。这意味着大图像块在低倍率下的优势,和高图像块在高倍率下的优势,不能简单地分开讨论。它们像咖啡和牛奶——单独喝都行,但一起喝是另一种体验。
- 在PANDA中,「推理模式 × 图像块大小」的交互独特地显著。多数投票在大图像块时性能反而下降——因为大图像块在20×放大下包含了太多信息,独立处理时模型反而困惑。
---
🌏 第九章:混合放大倍数的消融——多尺度是不是更优?
🔄 一个自然的想法:同时给不同倍率
如果低倍率对大视野任务好,高倍率对细节任务好,那混合起来是不是能兼得?比如同时给10块5×、10块10×、10块20×?
论文做了这个实验。结果:混合放大倍数未产生叠加增益。性能通常介于各单倍放大之间,而不是超越它们。
| 配置 | TCGA | GTEx | PANDA |
|---|---|---|---|
| 5× 仅 | 41.8% | 70.2% | 22.1% |
| 10× 仅 | 39.6% | 62.8% | 20.8% |
| 20× 仅 | 33.3% | 56.8% | 28.8% |
| 混合(各10块) | 41.1% | 66.4% | 25.3% |
结论:在固定图像块预算(30块)下,混合策略平均化了各尺度的优势,而不是增强它们。就像把多种咖啡混在一起,得到的是一杯「平均」的咖啡,而不是一杯更浓的咖啡。
🤔 为什么混合不如单一优化?
论文没有深入解释,但我们可以推测:
1. 上下文稀释:混合后,模型需要在同一上下文中处理多个尺度的信息。低倍率的广视野和高倍率的细节可能互相干扰,模型注意力被分散。 2. 任务特异性:每个任务有一个「最佳尺度」。混合时引入了次优尺度的噪音,而这些噪音无法被最优尺度的信息完全补偿。 3. 固定预算:如果总块数固定(30块),混合意味着每个尺度的块数减少。如果5×单独需要30块才能达到最优,那混合中只给10块5×就太少了。
这个发现对实际应用很重要:与其尝试多尺度融合,不如先确定任务的最佳尺度,然后全力优化那个尺度。
---
📐 第十章:视野分析——像素数不是唯一的故事
🗺️ 总视野 = 覆盖面积,但不等于理解深度
论文提出了一个有趣的概念:总视野(Field of View, FoV)。
FoV = (Patch Size / Magnification) × Patch Count
比如,1024px、5×、20块的总视野 = (1024/5) × 20 = 4096 × 4096像素。这是模型实际「看到」的组织面积。
论文发现:更大的FoV通常与更好的性能相关。但FoV不能完全解释缩放行为。即使控制FoV相同,不同的配置(图像块大小、放大倍数、数量的组合)仍然会产生不同的性能。
这意味着:
- 图像块大小不只是组织覆盖率的代理。更大的块提供不同的视觉表征——更连续的纹理、更完整的结构、更少的边缘效应。
- 放大倍数不只是分辨率的代理。低倍率提供更全局的组织架构信息,高倍率提供细胞级细节。这是质的区别,不是量的区别。
- 图像块数量不只是信息量的代理。超过20块后,新增块的信息冗余,而模型注意力有限,可能反而分散了焦点。
🎨 回到佩雷克的隐喻
> 「速度改变了空间,正如距离改变了形状。」
在病理学LLM输入中,「图像块大小 × 放大倍数」的组合就是「速度」和「距离」的乘积。它决定了模型看到的空间的「形状」和「质地」。不同任务需要不同的「形状」——有的需要广阔的、鸟瞰的、结构化的空间;有的需要细密的、微观的、局部的空间。
---
🏛️ 第十一章:对病理学AI的深远影响
🔄 基线方法论的重新审视
这篇论文对病理学AI领域的影响是多层面的:
1. 基线应该被重新设计
过去的研究在比较专用模型和通用LLM时,使用的LLM基线往往是次优的。这意味着「专用模型更强」的结论可能被系统性地夸大了。未来的研究应该使用经过系统优化的LLM基线,而不是盲目沿用传统的小块+高倍率+多数投票方案。
2. 领域特定训练的必要性被重新评估
如果通用LLM通过输入优化就能接近甚至超越专用模型,那么花费大量资源进行领域特定训练、架构调整、数据收集的必要性就降低了。对于资源有限的研究者和临床机构,这可能意味着更快速、更便宜的部署路径。
3. 多模态LLM的潜力被低估
通用LLM在视觉任务上的潜力可能比我们想象的大得多。问题不是模型不够「专用」,而是我们没有找到正确的方法让它发挥已有的能力。这就像发现一位天才音乐家不仅会弹钢琴,还会拉小提琴——但之前一直给他一把尺寸不对的琴。
🔮 对未来的启示
- 输入工程(Input Engineering)将成为一门独立技能:就像提示工程(Prompt Engineering)一样,如何为特定任务设计最佳输入配置(图像块大小、放大倍数、推理模式、数量)将成为AI应用的关键技能。
- 任务自适应输入:未来的系统可能不需要人工选择配置,而是自动根据任务类型(分类、分级、VQA)调整输入参数。论文已经展示了不同任务的最优配置是不同的。
- 跨模态的对齐原理:论文的发现不仅适用于病理学图像,也适用于其他视觉任务。核心原则始终是:让输入分布尽可能接近模型的预训练分布,同时提供任务所需的足够信息。
🎭 尾声:在十亿像素的房间里,学会正确地开窗
这篇论文让我想到一个禅宗公案:
> 一个弟子问师父:「我如何开悟?」师父说:「看到月亮时,不要指向手指。」
在病理学AI中,我们过去过于关注「手指」(模型架构、参数数量、训练数据),而忽略了「月亮」(输入配置、如何呈现信息)。我们建造了越来越精密的显微镜,但忘记了问:观察的方式是否本身就是问题的一部分?
Kian Weihrauch、Thomas Buckley、William Lotter和Arjun Manrai的这项工作,优雅地提醒我们:在十亿像素的房间里,窗户的位置、大小、数量和视角,可能比房间里本身的内容更重要。 因为再好的眼睛,如果看向了错误的方向,看到的也只是黑暗。
对于通用LLM而言,它不是一个「差学生」——它只是一个被放在了错误座位上的学生。给它正确的窗户,它就能从十亿像素的迷宫里,读出生命的密码。
---
📚 参考文献
1. Weihrauch, K. R., Buckley, T. A., Lotter, W., & Manrai, A. K. (2026). How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology. *arXiv preprint arXiv:2606.12407*.
2. Lotter, W., et al. MultiPathQA: A benchmark for pathology question answering on whole-slide images. *(论文引用,具体信息需查阅原始文献)*
3. Giącomo, F., et al. GIANT: A multimodal agent for pathology. *(论文引用,具体信息需查阅原始文献)*
4. SlideChat, MedGemma, PathAgent等专用模型相关文献,详见论文参考文献部分。
5. GTEx Consortium (2013). The Genotype-Tissue Expression (GTEx) project. *Nature Genetics*, 45(6), 580-585.
6. TCGA Research Network (2008). The Cancer Genome Atlas: A 3D map of the human genome. *(详见tcga-data.nci.nih.gov)*
7. CPTAC Consortium (临床蛋白质组学肿瘤分析联盟). *(详见proteomics.cancer.gov)*
---
*本文解读基于 arXiv:2606.12407,作者为 MIT 和 Harvard Medical School 的研究团队。所有数据引用自原始论文。如有理解偏差,责任在解读者。*
---
#论文 #arXiv #AI #病理学 #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens