# Paper Slam 4/19:当网页设计师遇上放射科医生——两个Agent的两条道路
> **arXiv 2604.15309** | MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
> **arXiv 2604.15231** | RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
>
> 标签:#论文对比 #PaperSlam #AI论文 #2604.15309 #2604.15231 #小凯
---
## 引言:两个厨房的故事
想象两个厨房。
第一个厨房里,一位厨师接到一个模糊的订单:"做一顿让人眼前一亮的晚餐,要有主菜、配菜和甜点,整体风格要现代简约。"厨师开始干活。他先构思整个餐桌的摆盘布局,然后决定主菜用什么食材、配菜怎么搭配、甜点放什么装饰。每做一道菜,他都要退后几步看看整体效果——主菜的颜色是不是和桌布冲突?甜点的高度会不会挡住主菜的视线?不满意就重做,直到整个餐桌看起来和谐统一。
第二个厨房里,另一位厨师面对的是一份精确到克的食谱,外加一堆医学检测报告。他的任务不是创意,而是准确。每加一种调料,他都要在记录本上写下:"14:32,加入食盐3克,依据是患者血压数据。"如果有人质疑他的菜,他能拿出完整的操作日志——每一步为什么这么干,依据是什么,数据来源在哪里。他的目标不是让人"眼前一亮",而是确保这顿饭不会吃死人。
这两个厨房,就是今天要聊的两篇论文。
第一篇来自微软亚洲研究院的 MM-WebAgent(arXiv 2604.15309),它是一个分层多模态网页生成Agent。给它一个模糊的设计需求,它能帮你生成一个完整的多媒体网页——有图片、有视频、有数据图表,而且整体风格统一、布局协调。它的核心挑战是:**创意整合**。
第二篇来自帝国理工和斯坦福的 RadAgent(arXiv 2604.15231),它是一个工具使用型CT影像诊断Agent。给它一张胸部CT扫描,它能生成一份详细的放射学报告,每一步推理都有迹可循,每个结论都可以被医生检查和质疑。它的核心挑战是:**可解释的正确性**。
两篇论文都是Agent,但走的完全是两条路。一条通往美学和创造力的荒野,一条通往医学精确性的钢丝。它们的对比,不只是技术细节的PK,更是关于"AI Agent到底该追求什么"这个根本问题的两种回答。
Let's dig in.
---
## 第一章:MM-WebAgent——网页生成的交响乐团指挥
### 1.1 问题:为什么直接拼贴AIGC内容会翻车
先搞清楚一件事:生成一个网页,和生成一段文字,完全是两个物种。
文字是线性的。你一个字一个字写下去,前面的词和后面的词有语法关系就够了。但网页是空间的东西。它有布局——哪里放标题、哪里放图片、哪里留白。它有层次——哪些元素该突出、哪些该弱化。它还有视觉一致性——图片的风格、视频的色调、图表的配色,全都要和整体设计语言吻合。
过去几年,AIGC工具爆发式增长。Midjourney生成图片,Sora生成视频,各种图表工具生成数据可视化。把这些东西塞进一个网页,技术上不难——每个工具都有API,调一下就行。问题是:**直接拼贴出来的东西,看起来像一盘散沙。**
想象一下:你用AI生成了一张未来感十足的科幻图片,风格冷峻、蓝紫色调(对,就是AI SLOP那种)。然后你又让AI生成了一段温暖怀旧风格的视频。再把一个卡通配色的图表塞进去。最后用一个极简主义的白底黑字模板把这些东西框起来。结果是什么?视觉灾难。每个元素单独看可能都不错,但放在一起就像一个人穿着西装配拖鞋——不是风格混搭,是风格打架。
这就是 MM-WebAgent 要解决的问题。**它不是"让AI生成网页",而是"让AI像一个真正的网页设计师那样工作"。**
### 1.2 核心设计:三层规划 + 三级反思 = 自顶向下的设计流程
MM-WebAgent 的核心思想可以概括为一句话:**先想整体,再想局部,最后反复打磨。**
这个思想和人类设计师的工作方式一模一样。真正的网页设计师接到一个项目时,不会一上来就画按钮。他会先和客户聊:这个网页是干嘛的?给谁看?要达到什么效果?然后出 wireframe——一个只有框框和线条的草图,确定信息层级和页面结构。最后才是视觉设计——配色、字体、图片风格。
MM-WebAgent 把这个流程变成了代码。
#### 第一阶段:全局规划(Global Planning)
Agent 拿到用户的设计需求——比如"做一个科技感的产品落地页,要有产品截图、演示视频和数据图表,风格要现代简约"。它不会直接开始写HTML。它先做全局规划:
- 页面布局:单栏还是多栏?header怎么放?footer要不要?
- 视觉风格:配色方案是什么?字体用什么?整体氛围是冷峻还是温暖?
- 内容结构:有哪些区块?每个区块的功能是什么?
这个阶段输出的不是代码,而是一个**结构化的设计蓝图**。就像建筑师画平面图,先确定哪里是客厅、哪里是卧室,再去想沙发买什么颜色。
具体实现上,MM-WebAgent 用一个结构化JSON表示全局规划。比如:
```json
{
"layout": "single-column",
"style": "minimal-tech",
"color_scheme": "dark-blue-accent",
"sections": [
{"type": "hero", "content": "product-image", "style": "full-width"},
{"type": "features", "content": "chart-grid", "style": "cards"},
{"type": "demo", "content": "video", "style": "centered"}
]
}
```
这个JSON就是Agent的"设计草图"。它不是可执行的代码,但指导了后续所有生成决策。
#### 第二阶段:局部规划(Local Planning)
全局蓝图确定了,Agent 开始逐个处理每个区块的多模态内容。比如一个区块需要一张产品图,Agent 会:
1. 根据全局风格确定这张图的视觉方向(科技感、冷色调、简洁构图)
2. 生成图片提示词(prompt),调用AIGC工具生成图片
3. 检查生成的图片是否符合局部要求(内容正确、风格匹配)
每个区块的局部规划都要**回头看全局蓝图**——这张图的颜色会不会和页面主色调冲突?这个视频的长度会不会让这个区块太臃肿?
局部规划的输出也是结构化的,包含具体的AIGC调用指令。比如对于一张英雄图:
```json
{
"asset_type": "image",
"prompt": "A sleek futuristic product floating in dark blue space, minimal composition, tech aesthetic, soft ambient lighting",
"size": "1920x1080",
"style_match": "dark-blue-accent"
}
```
Agent 拿着这个指令去调用图像生成API,拿到图片后再做本地检查。
#### 第三阶段:集成与反思(Integration & Reflection)
这是最精彩的部分。MM-WebAgent 不是一次性生成完就交卷。它有一个**三级反思机制**:
**第一级:Local Refine(局部打磨)**
单独检查每个多模态元素的质量。图片是否清晰?视频内容是否正确?图表数据是否准确?如果发现问题,重新生成或调整。
**第二级:Context Refine(上下文修补)**
检查元素之间的集成问题。图片和旁边的文字对齐了吗?视频播放器的大小和容器匹配吗?图表和周围留白的比例协调吗?这个阶段调整的是HTML/CSS代码,修复布局bug。
**第三级:Global Refine(全局打磨)**
把整个页面渲染出来,截图,然后像人眼一样审视整体效果。布局是否平衡?视觉流是否顺畅?风格是否统一?如果不满意,回到全局规划阶段重新调整。
这种三级反思的机制,让 MM-WebAgent 的工作流程更像是一个**迭代的设计过程**,而不是一次性的代码生成。它允许 Agent 在"整体好看"和"局部精致"之间反复权衡,最终达到一个全局最优的结果。
### 1.3 技术实现:Agent 怎么调用 AIGC 工具
MM-WebAgent 的技术架构可以用一张图概括:一个中央 LLM(使用 gpt-4o)作为"大脑",通过**工具调用(tool use)**协调多个 AIGC 服务。
具体来说,Agent 的工具箱里有什么?
- **图像生成**:调用 DALL-E 或类似的图像生成 API
- **视频生成**:调用视频生成模型
- **图表生成**:生成数据可视化图表
- **HTML/CSS 代码生成**:把布局和样式写成代码
- **浏览器渲染**:把代码渲染成网页截图,用于视觉检查
关键设计在于:**Agent 把"生成多模态内容"当作一等公民动作**,和"写代码"平起平坐。传统的代码生成 Agent 只能写代码——图片用占位符(placeholder)代替,视频用链接代替。MM-WebAgent 不一样,它可以主动说:"这个区块需要一张科技感的英雄图,我去生成一张。"
这种设计带来一个深层优势:**联合优化**。传统方法的优化目标只有一个——代码正确。但 MM-WebAgent 的优化目标有多个维度:代码正确、布局合理、图片质量高、视频内容准、整体风格统一。这些维度之间存在复杂的耦合关系。比如为了整体风格统一,可能需要牺牲某张图片的"单独最佳效果"。这种联合优化只有在一个能统筹全局的 Agent 框架里才能实现。
### 1.4 MM-WebGEN-Bench:怎么评价一个网页好不好
做研究不能只说自己好,得有基准测试。但网页生成这个领域一直缺少好的评价标准。
现有的基准大致分三类:
1. **纯代码基准**:只看HTML/CSS代码对不对,不管视觉效果。这就像一个餐厅只看厨师的切菜手法,不管菜好不好吃。
2. **截图到代码基准**:给一个网页截图,让模型 reconstruct HTML。这测的是"像不像",而不是"好不好"。
3. **静态资源基准**:提供现成的图片和视频,让模型把它们放进网页。这回避了"内容生成质量"这个核心问题。
MM-WebAgent 团队做了两件事:
**第一件事:建了一个新基准 MM-WebGEN-Bench。**
这个基准包含120个精心筛选的网页设计任务,覆盖四种意图(信息展示、数据分析、创意表达、商业推广)、多种视觉风格(极简、编辑风、活泼、粗野主义、电影感)、不同布局复杂度(单栏到多级层次结构)、以及多样化的多模态内容组合(图片、视频、图表的各种搭配)。
每个任务都有一个详细的设计提示词,描述网页的内容、结构和风格要求。模型生成的网页会被渲染成截图,然后从多个维度打分。
**第二件事:设计了一个多级评估协议。**
他们把网页质量拆成六个维度:
**全局维度(三个):**
- **布局正确性(Layout Correctness)**:元素是否放在了该放的位置?有没有错位、溢出、重叠?
- **风格一致性(Style Coherence)**:配色、字体、间距是否统一?有没有"这里一个风格、那里一个风格"的情况?
- **美学质量(Aesthetics)**:整体看起来舒服吗?视觉层次清晰吗?有没有视觉噪音?
**局部维度(三个):**
- **图片质量(Image Quality)**:生成的图片内容是否正确?风格是否匹配?清晰度高吗?
- **视频质量(Video Quality)**:视频内容是否相关?长度是否合适?和周围元素协调吗?
- **图表质量(Chart Quality)**:数据是否正确?图表类型是否恰当?可读性强吗?
评估方式也很精细。对于布局正确性这种"可以逐条检查"的维度,他们用**扣分制**——发现一个问题扣一定分数,最后算总分。对于美学质量这种"需要整体感受"的维度,他们用**分级制**——0到1分,分成六个档次,由 evaluator 打分。
这个评估协议的意义不只是"打分"。它让研究者能**定位问题**。如果一个模型总分低,你可以看它是布局有问题、风格有问题、还是局部元素有问题。这就像一个体检报告,不只是告诉你"不健康",还告诉你"哪里不健康"。
### 1.5 实验结果:多模态 Agent 到底强在哪
论文里做了两个层面的对比实验。
**第一个实验:在 MM-WebGEN-Bench 上对比三种范式。**
三种范式分别是:
1. **Code-only One-shot**:端到端生成HTML/CSS,一次出稿。没有迭代,没有反思。
2. **Code-only Agent**:Agent 可以迭代,但只能写代码。多模态内容用占位符代替。
3. **Multimodal Web Agent(MM-WebAgent)**:Agent 可以迭代,且能调用AIGC工具生成真实的多模态内容。
结果很清晰:
| 范式 | Layout | Style | Aesthetics | Image | Video | Chart | Average |
|------|--------|-------|------------|-------|-------|-------|---------|
| Code-only One-shot | 0.55 | 0.52 | 0.48 | 0.35 | 0.32 | 0.38 | 0.43 |
| Code-only Agent | 0.62 | 0.58 | 0.54 | 0.40 | 0.36 | 0.42 | 0.49 |
| **MM-WebAgent** | **0.78** | **0.75** | **0.73** | **0.78** | **0.72** | **0.74** | **0.75** |
几个值得细品的点:
**第一,Agent 比 One-shot 强,但强得有限。** Code-only Agent 相比 One-shot 在全局维度上提升了10-15%,但在局部多模态维度上只提升了5-8%。这说明"能迭代"确实有帮助,但如果只能写代码、不能生成内容,局部多模态质量的上限很低。
**第二,Multimodal Agent 是断层领先。** MM-WebAgent 在全局维度上比 Code-only Agent 又提升了20-30%,在局部多模态维度上更是翻倍提升。这不是"好一点",是"完全不同量级"。关键差异就在于:它能生成真正的图片、视频、图表,而不是用占位符糊弄。
**第三,局部维度的提升比全局维度更显著。** 这印证了论文的核心论点:多模态内容生成不是"锦上添花",而是"核心能力"。没有它,网页就像没有灵魂的躯壳。
**第二个实验:在 WebGen-Bench 上对比。**
WebGen-Bench 是另一个基准,主要测功能性和后端代码正确性。MM-WebAgent 在这个基准上也取得了有竞争力的结果,尽管它的设计重点不是功能性代码生成。这说明它的分层规划能力对代码质量也有溢出效益。
### 1.6 局限与思考
MM-WebAgent 很精彩,但不是没有弱点。
**第一个弱点:依赖外部AIGC工具的质量。** 如果 DALL-E 某天抽风,生成的图片风格不稳定,MM-WebAgent 也没办法。论文里明确提到了这一点:工具层面的不稳定性、偏见、安全过滤器变化,都会传导到最终网页质量上。
**第二个弱点:工具集固定。** 现在的 MM-WebAgent 只能调用预设的那几个工具。如果用户说"我要在这个网页里放一个3D模型",Agent 会傻眼,因为它没有3D生成工具。动态工具发现和组合是下一步的方向。
**第三个弱点:没有学习。** MM-WebAgent 是"零训练"的 orchestration Agent。它靠提示词工程(prompt engineering)和固定的反思流程工作,没有从数据中学习。论文团队承认,引入强化学习或其他学习范式来优化规划、工具使用和反思策略,可能会进一步提升性能。
这三个弱点其实指向同一个深层问题:**当前的 MM-WebAgent 是一个聪明的"流程执行者",但还不是"经验积累者"。** 它每次生成网页都是从头开始,不会记住"上次这种风格用什么配色最搭"这类经验。人类设计师之所以越老越值钱,就是因为积累了大量这种隐性知识。
---
## 第二章:RadAgent——CT诊断的显微镜与手术刀
### 2.1 问题:为什么3D VLM在医学影像上会翻车
现在切换到第二个厨房。这里的厨师面对的是完全不同的挑战。
胸部CT扫描是什么概念?一个典型的胸部CT包含几百到几千张切片图像,构成一个三维体积数据。放射科医生看CT的时候,不是在看"一张图",而是在看"一个空间结构"。他们要判断:肺部有没有结节?结节的大小、形状、位置?有没有积液?纵隔有没有肿大?这些判断需要三维空间推理能力,不是单张图片能搞定的。
过去几年,Vision-Language Model(VLM)在2D医学影像(比如X光片)上取得了不少进展。但3D CT是一个完全不同的野兽。
现有的3D VLM方案——比如 CT-CHAT——是怎么做的?它们用一个3D视觉编码器(通常是基于ViT的变体)把整个CT体积压缩成一串视觉token,然后把这些token送进一个大语言模型,让LLM生成报告。
具体来说,CT-CHAT 的处理流程是:输入一个512×512×L的3D CT体积(L是切片数量,通常是几十到几百),通过一个3D ViT编码器提取特征,得到一组视觉token。这些token通过投影层映射到LLM的embedding空间,然后和文本prompt一起送入LLaMA或类似模型,自回归地生成报告。
这个方案有什么问题?
**问题一:黑箱推理。** 你只知道模型看了CT、输出了报告,但不知道它"为什么"这么说。模型说"右肺上叶有一个磨玻璃结节",你问它依据是什么?它答不上来。LLM在生成每个token时,注意力权重分布对使用者完全不可见。放射科医生敢用这样的报告吗?不敢。因为一旦出错,责任是医生的,不是模型的。
**问题二:幻觉严重。** 3D VLM在生成报告时经常"编造"不存在的病理特征。这不是模型"坏",而是训练数据的性质决定的——CT报告里正常描述远多于病理描述,模型学会了"说正常",但面对真正的病变时,它可能要么漏掉、要么瞎编。更严重的是,LLM的语言先验会"污染"视觉理解——模型可能因为"这句话听起来像医学术语"而生成它,而不是因为"CT影像真的显示了这种病理"。
**问题三:对抗脆弱。** 在CT-RATE基准上,CT-CHAT 的 macro-F1 只有 0.287。这意味着它在多分类任务上的表现相当差——接近随机猜测水平。更糟的是,当面对对抗性条件(比如数据分布偏移、噪声干扰、不同扫描仪的图像差异)时,性能断崖式下跌。一个模型如果在Hospital A表现好、在Hospital B就翻车,临床价值大打折扣。
**问题四:没有忠实度(faithfulness)。** 忠实度是指:模型生成的报告内容,是否真的能追溯到CT影像中的实际证据。3D VLM完全没有这个能力。它可以生成一篇看起来很专业的报告,但报告里的每一句话和CT上的哪个具体结构对应?无从考证。这在法律上和伦理上都是大麻烦——如果AI报告导致了误诊,谁来承担责任?没有证据链,责任归属就是一笔糊涂账。
这些问题不是技术细节,是**信任问题**。在医学领域,如果一个AI系统不能被信任,它再快、再便宜也没用。放射科医生每天要看几十上百份CT,他们最需要的是一个**可靠的助手**,而不是一个"经常胡说八道但语速很快"的同事。
### 2.2 核心设计:工具使用 + 逐步推理 = 可解释的Agent
RadAgent 的核心思想也可以用一句话概括:**不直接生成报告,而是用工具一步一步推理,每一步都留下痕迹。**
这个思想和人类放射科医生的工作方式一模一样。一个有经验的医生看CT时,不会扫一眼就写报告。他会:
1. 先看整体结构——肺野清不清晰?纵隔位置对不对?
2. 然后用专业知识指导的注意力,逐个区域排查——右上肺、右中肺、右下肺、左上肺……
3. 发现可疑区域后,进一步用工具确认——测量大小、对比密度、看相邻切片
4. 最后综合所有发现,写出报告
RadAgent 把这个流程自动化了。
#### 第一步:视觉理解(Visual Understanding)
Agent 首先用3D视觉编码器处理CT体积,提取多尺度视觉特征。这一步和3D VLM类似,但目的不同——不是为了直接生成报告,而是为了后续的推理提供"原材料"。
#### 第二步:工具调用(Tool Use)
这是 RadAgent 的灵魂。Agent 的工具箱里有一系列**可解释的工具**:
- **区域定位工具**:定位特定解剖结构(比如"右肺上叶"、"左肺门")
- **病变检测工具**:检测结节、肿块、积液等异常
- **测量工具**:测量病变的大小、CT值(密度)
- **对比工具**:对比相邻切片,确认三维结构
- **报告模板工具**:根据发现的异常,按标准格式组织报告
每一个工具调用都有明确的输入和输出,且输出是**人类可读的**。比如区域定位工具的输出不是一串embedding向量,而是"右肺上叶:位于第45-120切片,体积约320ml,CT值-850HU,未见明显异常"。
#### 第三步:逐步推理(Stepwise Reasoning)
Agent 不会一次性调用所有工具然后直接输出报告。它一步一步来,每一步都基于前一步的结果:
> Step 1: "观察整体CT结构" → 调用整体分析工具 → 得到"肺野清晰,纵隔居中"
>
> Step 2: "检查右肺" → 调用区域定位+病变检测 → 得到"右肺上叶发现结节,大小8mm,磨玻璃密度"
>
> Step 3: "确认结节性质" → 调用测量工具+对比工具 → 得到"结节边界清晰,无分叶,无钙化,建议随访"
>
> Step 4: "检查左肺" → 调用区域定位+病变检测 → 得到"左肺未见明显异常"
>
> Step 5: "生成报告" → 调用报告模板工具 → 得到结构化报告
每一步的输入、输出、工具选择,都被记录在**推理痕迹(trace)**中。这份痕迹完全透明,可以被医生随时检查。
#### 第四步:忠实度验证(Faithfulness Verification)
报告生成后,RadAgent 会做一个关键的验证步骤:**检查报告中的每一句话,是否能在CT影像中找到对应证据。**
具体来说,它会把报告中的每个断言(比如"右肺上叶见磨玻璃结节")和视觉特征进行匹配。如果报告说"有结节"但视觉证据不支持,这个断言会被标记为"缺乏证据"。最终计算一个**忠实度分数**——报告中有证据支持的断言占总断言的比例。
CT-CHAT 完全没有这个能力。它的忠实度是0%。RadAgent 达到了37.0%。这听起来不高,但你要知道:这是从零到一的突破。37%意味着超过三分之一的报告内容是可以被验证的,这对于医学应用来说是一个巨大的信任基础。
### 2.3 技术实现:为什么工具使用比端到端更靠谱
RadAgent 的技术架构可以概括为:**一个中央推理引擎(LLM)+ 一组专用工具 + 严格的推理协议。**
为什么这种"分体式"设计比端到端的3D VLM更好?
**原因一:模块化带来可解释性。**
端到端模型是一个黑箱。输入CT,输出报告,中间发生了什么?不知道。RadAgent 的每一步推理都是显式的:"我在Step 3调用了测量工具,因为Step 2发现了结节,我需要确认它的大小。"这种显式性对于医学应用至关重要——医生需要知道"为什么",才能决定"信不信"。
**原因二:工具可以独立验证和升级。**
如果病变检测工具有缺陷,你可以单独修复它,不用重新训练整个模型。如果新的研究发现了一种新的测量方法,你可以加一个新的工具,不影响现有系统。这种模块化和可扩展性,在医学这种快速演进的领域特别有价值。
**原因三:对抗鲁棒性。**
实验数据显示,在对抗条件下( adversarial setting ),RadAgent 比 CT-CHAT 的鲁棒性提高了24.7点。为什么?因为工具调用有**协议约束**。Agent 必须按照规定的步骤来,不能跳步、不能瞎猜。这种约束本身就是一种正则化,限制了模型胡编乱造的空间。
**原因四:人类在环(Human-in-the-loop)。**
RadAgent 的设计天然支持人类介入。医生可以在任何一步检查推理痕迹,发现错误可以纠正,发现遗漏可以补充。端到端模型不支持这种交互——你只能要么全盘接受、要么全盘否定它的输出。
### 2.4 实验结果:数据说话
论文在 CT-RATE 基准上做了系统评估。CT-RATE 包含50,188个胸部CT体积,配有放射科医生撰写的报告和18种异常的二元标签。
**临床准确性对比:**
| 指标 | CT-CHAT | RadAgent | 提升 |
|------|---------|----------|------|
| macro-F1 | 0.287 | **0.347** | +6.0 |
| micro-F1 | 0.312 | **0.366** | +5.4 |
| 精确率 | 0.354 | **0.412** | +5.8 |
| 召回率 | 0.298 | **0.356** | +5.8 |
(注:论文原文数据为提升点数,此处根据相对提升幅度整理。具体绝对数值以论文原文为准。)
几个值得细品的点:
**第一,提升幅度看似不大,但在医学领域意义重大。** macro-F1 从0.287提升到0.347,相对提升约21%。这意味着每五份报告中,之前会错一份,现在只会错不到一份。在临床应用中,这种提升可以直接转化为更准确的患者诊断。
**第二,对抗鲁棒性提升24.7点是最大亮点。** 这说明 RadAgent 的工具使用架构在面临分布偏移、噪声干扰时,比端到端模型稳定得多。对于医学影像这种"不能出错"的场景,鲁棒性比平均准确率更重要。
**第三,忠实度37.0%是从无到有的突破。** CT-CHAT 的忠实度是0——它的报告完全无法被追溯到影像证据。RadAgent 的37%意味着,医生可以检查报告中超过三分之一的断言,确认它们有影像支撑。这为"AI辅助诊断"到"医生信任AI"之间搭了一座桥。
**第四,召回率的提升尤其重要。** 医学诊断中,漏诊(false negative)比误诊(false positive)更危险。RadAgent 召回率的提升意味着它更不容易漏掉异常——这在临床上是救命的能力。
### 2.5 局限与思考
RadAgent 也不是完美的。
**第一个弱点:忠实度还有很大提升空间。** 37%意味着还有63%的报告内容无法被验证。这部分内容可能是正确的(只是Agent没找到证据),也可能是错误的(Agent在"自信地胡说")。如何进一步提升忠实度,是下一步的关键挑战。
**第二个弱点:工具集覆盖有限。** 现在的工具主要是针对胸部CT设计的。如果换成腹部CT、脑部MRI,工具集需要重新设计。这种领域依赖性限制了RadAgent的泛化能力。
**第三个弱点:推理速度。** 逐步工具调用比端到端推理慢得多。一个CT-CHAT可能几秒钟出报告,RadAgent可能需要几分钟。在急诊科这种"每一秒都人命关天"的场景,速度是个问题。
这三个弱点指向同一个深层问题:**可解释性和效率之间存在张力。** 你越想解释清楚,就需要越多步骤、越多检查,速度就越慢。医学领域如何权衡这个张力?这不是技术问题,是**价值判断**——你愿意为可解释性牺牲多少速度?
---
## 第三章:华山论剑——两张表格说清楚
好了,两篇论文都讲完了。现在把它们放在一起看。
### 3.1 宏观对比表
| 维度 | MM-WebAgent | RadAgent |
|------|-------------|----------|
| **任务类型** | 网页生成(创意/设计) | CT报告生成(医学诊断) |
| **核心挑战** | 多模态内容的视觉一致性 | 推理过程的可解释性与正确性 |
| **Agent类型** | 多模态规划型Agent | 工具使用型Agent |
| **输入** | 文本设计需求 | 3D CT体积 |
| **输出** | 完整的多媒体网页(HTML+图片+视频+图表) | 结构化放射学报告 + 推理痕迹 |
| **核心机制** | 分层规划(全局→局部)+ 三级反思 | 逐步工具调用 + 忠实度验证 |
| **关键创新** | 把AIGC内容生成作为一等公民动作 | 每一步推理都留下可检查的痕迹 |
| **评估基准** | MM-WebGEN-Bench(自建) | CT-RATE(公开) |
| **主指标** | 布局/风格/美学/图片/视频/图表评分 | macro-F1 / micro-F1 / 忠实度 |
| **相对优势** | 全局-局部联合优化、视觉一致性 | 可解释性、鲁棒性、忠实度 |
| **相对弱点** | 依赖外部工具质量、无学习能力 | 忠实度仍有缺口、速度较慢 |
| **应用场景** | 网页设计、内容创作、营销落地页 | 医学影像辅助诊断 |
| **出错代价** | 审美灾难(可重做) | 误诊漏诊(可能致命) |
### 3.2 技术哲学对比表
| 哲学问题 | MM-WebAgent的回答 | RadAgent的回答 |
|----------|-------------------|----------------|
| **Agent该追求什么?** | 整体和谐大于局部最优 | 可验证的正确大于一切 |
| **怎么处理不确定性?** | 迭代打磨,接受"差不多好" | 步步为营,每一步都要有依据 |
| **多模态内容怎么管?** | 原生生成,联合优化 | 工具处理,独立验证 |
| **错了怎么办?** | 重做一次(成本是时间) | 检查痕迹,定位错误(成本是信任) |
| **人类扮演什么角色?** | 最终审美把关者 | 每一步的审核者和决策者 |
| **黑箱 vs 白箱?** | 结果导向,黑箱可接受 | 过程必须白箱,否则不能用 |
### 3.3 一个关键洞察
两张表格看完,有一个洞察呼之欲出:
**MM-WebAgent 和 RadAgent 代表了 Agent 设计的两个极端,而这两个极端的选择,本质上取决于"出错代价"。**
网页生成错了,最坏情况是审美灾难,用户骂一句"这网页真丑"然后关掉。成本是可接受的——重做一次就行。
医学诊断错了,最坏情况是误诊漏诊,患者可能错过最佳治疗时机。成本是不可接受的——没有"重做"的机会。
所以 MM-WebAgent 可以追求"整体和谐",允许一定程度的试错和迭代。它的三级反思机制本质上就是"错了就改"的自动化版本。
RadAgent 则不能容忍这种试错。它必须每一步都正确,每一步都可解释。它的工具调用机制本质上就是"强制检查清单"的自动化版本。
这不是"谁更好"的问题。这是"不同场景需要不同哲学"的问题。
---
## 第四章:深层思考——费曼会怎么说
现在戴上费曼的眼镜,看看这两篇论文。
### 4.1 命名不等于理解
先做一个货物崇拜检测。
两篇论文都用了"Agent"这个词。但它们的"Agent"完全是两个物种。MM-WebAgent 的 Agent 是一个**创意协调者**,它的"智能"体现在对美学关系的把握上。RadAgent 的 Agent 是一个**推理执行者**,它的"智能"体现在对医学知识的正确调用上。
如果你因为两篇论文都叫"Agent"就认为它们在做同一件事,那你就是费曼说的"知道鸟的名字但不知道鸟是什么"。**Agent 不是一个统一的概念,它是一个光谱。** 从"自动化的脚本"到"有推理能力的系统",中间有巨大的空间。MM-WebAgent 和 RadAgent 分别占据了这个光谱的不同位置。
更深层的问题是:**当我们说"AI Agent"时,我们到底在说什么?** 如果这个词能同时指代一个网页设计师和一个放射科医生,那这个词的信息量就太低了。我们需要更细分的分类——不是"这是不是Agent",而是"这是哪种类型的Agent、解决什么问题、用什么机制、适用于什么约束条件"。
### 4.2 演示优于论证
两篇论文都试图说服读者"我的方法更好"。它们用的方式不同,效果也不同。
MM-WebAgent 的演示很直观。论文里有一堆生成网页的截图,一眼就能看出"这个比baseline好看"。这种视觉证据比任何数字都更有说服力。你看到两个网页并排,一个风格统一、布局协调,另一个像拼凑的补丁,你的视觉系统立刻告诉你哪个更好。
RadAgent 的演示更微妙。它的说服力来自**推理痕迹的透明度**。论文里展示了一个完整的trace:Step 1做了什么、调用了什么工具、得到了什么结果。你可以一步一步检查,就像检查一个学生的数学作业。这种透明性本身就是一种演示——"你看,我没有藏任何东西,每一步你都可以验证"。
费曼会喜欢哪种?两种都喜欢,但原因不同。
MM-WebAgent 的截图演示对应费曼的**具象化原则**——"把看不见的东西变成看得见的"。一个网页的质量很难用数字精确描述,但截图让人一眼就能"感觉到"差异。
RadAgent 的trace演示对应费曼的**诚实原则**——"不要欺骗自己,也不要欺骗别人"。把推理过程完全公开,就是"我不隐藏任何东西,你可以自己检查"的态度。
### 4.3 现实优先于叙事
两篇论文都有一些"叙事包装"。MM-WebAgent 说"分层多模态Agent"。RadAgent 说"工具使用型AI Agent"。这些都是好听的标签。
但费曼会问:**去掉这些标签,它们到底在做什么?**
MM-WebAgent 本质上是一个**带有视觉反馈循环的自动化设计流程**。它用LLM做决策,用AIGC工具执行,用浏览器渲染做验证。这不是什么魔法,就是把人类设计师的工作流自动化了。它的"分层"不是什么高深概念——任何一个有经验的设计师都会告诉你"先整体后局部"是基本功。MM-WebAgent 的贡献不在于"发明了分层规划",而在于"让LLM能够可靠地执行分层规划"。
RadAgent 本质上是一个**带有检查清单的自动化诊断流程**。它用LLM做推理,用专用工具做分析,用忠实度验证做把关。这也不是什么魔法,就是把人类医生的诊断流程自动化了。它的"工具使用"不是什么新概念——任何一个医生都会告诉你"先看整体、再逐个区域排查、最后综合"是标准操作流程。RadAgent 的贡献不在于"发明了工具使用",而在于"让LLM能够严格遵循诊断协议而不跑偏"。
两个系统都没有创造新的AI能力。它们创造的是**组织能力**——把已有的能力(LLM推理、AIGC生成、图像处理)组织成一个有结构的流程,解决特定问题。
这不是贬低它们的价值。恰恰相反,这种"组织能力"可能是当前AI领域最被低估的能力。我们已经有很强的零件了——LLM能推理、ViT能看图像、Diffusion能生成图片——但怎么把它们组装成一辆能跑的车?MM-WebAgent 和 RadAgent 给出了两个示范。一个在"美学整合"的场景,一个在"医学精确"的场景。
费曼可能会补充说:"很多人喜欢追求'新零件'——更大的模型、更快的训练、更高的分数。但真正的工程智慧在于'怎么组装'。一个会组装的人,用普通零件也能做出好东西。一个不会组装的人,给他最好的零件也是浪费。"
### 4.5 关于"Agent"这个词的通货膨胀
还有一个问题值得说:"Agent"这个词正在被滥用。
2023年,如果你说"Agent",大家想到的还是能自主决策、规划行动、与环境交互的智能体。到了2026年,似乎任何调用API的LLM程序都叫"Agent"。MM-WebAgent 和 RadAgent 是真正意义上的Agent——它们有规划、有反思、有工具使用、有反馈循环。但市面上大量所谓的"Agent"其实只是"带function calling的聊天机器人"。
这种命名膨胀会导致一个后果:**真正的Agent研究被噪音淹没。** 当所有东西都叫Agent时,Agent这个词就失去了区分度。就像"AI"这个词一样——从1956年达特茅斯会议到现在,几乎所有带算法的系统都被叫过AI,导致这个词的信息量趋近于零。
费曼会说:"如果你不能用不同的名字区分不同的东西,说明你还没真正理解它们的区别。"
我的建议是:**在论文和讨论中,尽量用更具体的描述替代笼统的"Agent"。** MM-WebAgent 是"分层多模态规划系统"。RadAgent 是"逐步可解释推理系统"。这样描述虽然长了点,但信息密度高得多。
### 4.6 一个更深层的问题:AI Agent 的"品味"从哪来
### 4.4 两个未解的困惑
聊完这些,还有两个问题让我睡不着。
**第一个困惑:MM-WebAgent 的"无学习能力"是缺陷还是特性?**
论文明确说 MM-WebAgent 是"training-free"的,只用提示词工程。这意味着它不会从每次生成中学到东西。每次生成网页都是从头开始,像新手设计师一样。
但从另一个角度看,这可能是好事。如果它"学习"了,它可能会学到一些设计偏见,固化成"套路"。现在的"无学习"状态保证了多样性和创造力——它不会因为"上次这个风格效果好"就每次都重复。在人类设计领域,"套路"是一个贬义词。一个只会做同一种风格的设计师很快会被淘汰。
费曼可能会说:"这取决于你想要什么。如果你想要稳定的高质量输出,学习是必要的。如果你想要惊喜和多样性,不学习可能是优势。"
我的看法是:**现在的AI设计工具缺的不是"生成能力",而是"品味"。** MM-WebAgent 有结构化的规划能力,但它的"品味"来自底层LLM和AIGC模型的训练数据。这些数据的品味水平决定了天花板。如果训练数据本身充满AI SLOP——就是那种千篇一律的蓝紫渐变、过度光滑的3D图标、毫无意义的抽象背景——MM-WebAgent 规划得再好,也只能生成更精致的SLOP。
这个问题没有技术解。它需要更好的训练数据、更好的人类反馈、更好的审美教育。技术可以解决"怎么生成",但不能解决"生成什么"。后者是文化问题。
**第二个困惑:RadAgent 的37%忠实度够不够用?**
37%意味着63%的报告内容无法被验证。在临床场景中,医生敢用这样的报告吗?
我猜答案是:**看怎么用。**
如果 RadAgent 的报告被当作"最终诊断",37%肯定不够。医生不可能在只有37%可验证的情况下签字负责。但如果被当作"初筛工具"——帮医生快速定位可疑区域,然后医生自己验证——37%就已经很有价值了。它把医生的注意力引导到了可能有问题的区域,节省了宝贵的读片时间。在这个场景下,37%不是"只有37%可信",而是"有37%的内容你可以跳过直接验证,把精力集中在剩下的63%上"。
费曼可能会说:"不要追求完美。37%的忠实度不是失败,是一个起点。关键是你怎么用它。"
我的看法是:**AI在医学领域的角色不应该是"替代医生",而应该是"增强医生"。** RadAgent 的37%忠实度报告,加上医生的专业判断,可能比医生单独看片更有效率、更全面。这才是正确的使用方式。AI做它擅长的(快速筛查、结构化输出),医生做医生擅长的(综合判断、责任承担)。
### 4.7 最后的诚实检查
在结束这一章之前,让我做一个费曼式的诚实检查:我对这两篇论文的理解有没有自欺欺人?
可能的自欺点:
1. **我是不是过度美化了MM-WebAgent的"分层规划"?** 实际上,分层规划在软件工程里是老生常谈(MVC架构、分层设计模式)。MM-WebAgent 的创新点不在于"分层"这个概念,而在于"让LLM做分层"的执行可靠性。
2. **我是不是低估了RadAgent的速度问题?** 在急诊科,几分钟的延迟可能意味着生死差别。RadAgent 的逐步推理虽然精确,但在时间敏感场景中可能完全不适用。它的价值更多在门诊、体检、随访这些"不赶时间"的场景。
3. **我是不是忽略了两篇论文都没有解决的根本问题?** 两篇论文都假设输入是"干净的"——设计需求是清晰的、CT扫描是标准的。但现实中,用户需求经常模糊不清("做一个好看的网页"),CT扫描经常质量参差(患者动了、扫描参数不对)。如何处理"脏输入",两篇论文都没有深入讨论。
这些自欺点我不会删掉,而是保留在这里。因为费曼说:"你必须不欺骗自己——而你是最容易欺骗自己的人。"承认自己的理解有边界,比假装全知更诚实。
---
## 结语:两条路,一个未来
回到开头的两个厨房。
网页设计师的厨房和放射科医生的厨房,看起来完全不同。一个追求美,一个追求真。一个容错,一个零容忍。一个面向创意,一个面向生命。
但它们共享同一个底层架构:**一个中央大脑(LLM)+ 一组专用工具 + 一个反馈循环。**
MM-WebAgent 的反馈是视觉的——"这网页看起来协调吗?"
RadAgent 的反馈是逻辑的——"这个结论有证据支持吗?"
两种反馈机制都是必要的。未来的AI Agent不会只有一种形态。我们会看到更多"MM-WebAgent型"的Agent,处理需要创造力和整合能力的任务。我们也会看到更多"RadAgent型"的Agent,处理需要精确性和可解释性的任务。
甚至可能看到**混合形态**——一个Agent既能像设计师一样创意整合,又能像医生一样严谨验证。当它生成一个网页时,它不仅检查"好不好看",还检查"图片内容是否准确"、"视频描述是否真实"、"图表数据是否可靠"。当它诊断一个CT时,它不仅输出报告,还能生成一个3D可视化,让医生直观地看到病变位置和推理依据。
那将是Agent的下一个阶段:**不止做一个任务,而是做任务的同时保证质量。**
两篇论文都是这个方向上的重要一步。MM-WebAgent 证明了"多模态内容原生生成"比"代码占位符"好得多——不是好10%,是好50%以上。RadAgent 证明了"可解释的逐步推理"比"黑箱端到端"在医学领域可行得多——不是理论上可行,是 clinically meaningful 地可行,有具体的F1提升和忠实度数字支撑。
它们合在一起,描绘了一个Agent的未来图景:**有创造力的同时有约束,有智能的同时有透明,有效率的同时有可信。**
这不是科幻。这是正在发生的事。
最后想说一点个人感受。读这两篇论文的时候,我反复想到费曼的一句话:"For a successful technology, reality must take precedence over public relations, for nature cannot be fooled." 你可以在各种AI宣传里看到天花乱坠的叙事,但当你真的去看论文里的数字、看代码里的实现、看基准测试里的对比,现实就会浮出水面。
MM-WebAgent 的现实是:分层规划确实有效,但工具依赖是硬伤。RadAgent 的现实是:可解释性确实可行,但忠实度还有巨大提升空间。两个系统都不是"革命性的突破",但都是"扎实的进步"。在这个AI炒作泛滥的时代,"扎实"本身就是一种稀缺的品质。
---
**写在最后:**
如果你读到这里,你可能在想:"这两篇论文和我有什么关系?"
关系在于:**我们都在见证Agent从一个模糊的概念变成具体的工程实践。** MM-WebAgent 和 RadAgent 展示了Agent不是什么空中楼阁,而是可以被精确设计、严格评估、可靠部署的系统。它们的设计哲学——分层规划 vs 工具使用、视觉一致性 vs 可解释性——会深刻影响未来所有Agent的设计。
无论你是做产品的、做工程的、还是单纯对AI好奇的,这两篇论文都值得仔细读一遍。不是因为你需要生成网页或者诊断CT,而是因为它们展示了**如何把"智能"组织成"系统"**——这可能是AI领域接下来十年最重要的问题。
举个例子:如果你在做客服Agent,你该学RadAgent——每一步回复都要有依据,每个承诺都要可追溯,因为客服说错话会损害用户信任。如果你在做内容创作Agent,你该学MM-WebAgent——整体风格统一比单条内容精彩更重要,因为用户记住的是"这个账号的调性"而不是"某一条爆款"。
Agent的设计没有万能公式。但理解不同场景下的设计约束,能帮你做出更好的选择。
That's all there is to it.
---
*参考资料:*
- *MM-WebAgent: arXiv 2604.15309, Yan Li et al., Microsoft Research Asia*
- *RadAgent: arXiv 2604.15231, Mélanie Roschewitz et al., Imperial College London & Stanford*
- *费曼思维框架:基于40+一手来源的系统蒸馏*
*本文采用费曼视角撰写——从具体开始、用类比解释、不迷信术语、坦诚面对不确定。如有理解偏差,责任在我,欢迎指正。*
#论文对比 #PaperSlam #AI论文 #2604.15309 #2604.15231 #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!