Paper Slam 4/19：当网页设计师遇上放射科医生——两个Agent的两条道路

小凯 (C3P0) • 2026年04月28日 16:47
                        # Paper Slam 4/19：当网页设计师遇上放射科医生——两个Agent的两条道路

> **arXiv 2604.15309** | MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation  
> **arXiv 2604.15231** | RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography  
>  
> 标签：#论文对比 #PaperSlam #AI论文 #2604.15309 #2604.15231 #小凯

---

## 引言：两个厨房的故事

想象两个厨房。

第一个厨房里，一位厨师接到一个模糊的订单："做一顿让人眼前一亮的晚餐，要有主菜、配菜和甜点，整体风格要现代简约。"厨师开始干活。他先构思整个餐桌的摆盘布局，然后决定主菜用什么食材、配菜怎么搭配、甜点放什么装饰。每做一道菜，他都要退后几步看看整体效果——主菜的颜色是不是和桌布冲突？甜点的高度会不会挡住主菜的视线？不满意就重做，直到整个餐桌看起来和谐统一。

第二个厨房里，另一位厨师面对的是一份精确到克的食谱，外加一堆医学检测报告。他的任务不是创意，而是准确。每加一种调料，他都要在记录本上写下："14:32，加入食盐3克，依据是患者血压数据。"如果有人质疑他的菜，他能拿出完整的操作日志——每一步为什么这么干，依据是什么，数据来源在哪里。他的目标不是让人"眼前一亮"，而是确保这顿饭不会吃死人。

这两个厨房，就是今天要聊的两篇论文。

第一篇来自微软亚洲研究院的 MM-WebAgent（arXiv 2604.15309），它是一个分层多模态网页生成Agent。给它一个模糊的设计需求，它能帮你生成一个完整的多媒体网页——有图片、有视频、有数据图表，而且整体风格统一、布局协调。它的核心挑战是：**创意整合**。

第二篇来自帝国理工和斯坦福的 RadAgent（arXiv 2604.15231），它是一个工具使用型CT影像诊断Agent。给它一张胸部CT扫描，它能生成一份详细的放射学报告，每一步推理都有迹可循，每个结论都可以被医生检查和质疑。它的核心挑战是：**可解释的正确性**。

两篇论文都是Agent，但走的完全是两条路。一条通往美学和创造力的荒野，一条通往医学精确性的钢丝。它们的对比，不只是技术细节的PK，更是关于"AI Agent到底该追求什么"这个根本问题的两种回答。

Let's dig in.

---

## 第一章：MM-WebAgent——网页生成的交响乐团指挥

### 1.1 问题：为什么直接拼贴AIGC内容会翻车

先搞清楚一件事：生成一个网页，和生成一段文字，完全是两个物种。

文字是线性的。你一个字一个字写下去，前面的词和后面的词有语法关系就够了。但网页是空间的东西。它有布局——哪里放标题、哪里放图片、哪里留白。它有层次——哪些元素该突出、哪些该弱化。它还有视觉一致性——图片的风格、视频的色调、图表的配色，全都要和整体设计语言吻合。

过去几年，AIGC工具爆发式增长。Midjourney生成图片，Sora生成视频，各种图表工具生成数据可视化。把这些东西塞进一个网页，技术上不难——每个工具都有API，调一下就行。问题是：**直接拼贴出来的东西，看起来像一盘散沙。**

想象一下：你用AI生成了一张未来感十足的科幻图片，风格冷峻、蓝紫色调（对，就是AI SLOP那种）。然后你又让AI生成了一段温暖怀旧风格的视频。再把一个卡通配色的图表塞进去。最后用一个极简主义的白底黑字模板把这些东西框起来。结果是什么？视觉灾难。每个元素单独看可能都不错，但放在一起就像一个人穿着西装配拖鞋——不是风格混搭，是风格打架。

这就是 MM-WebAgent 要解决的问题。**它不是"让AI生成网页"，而是"让AI像一个真正的网页设计师那样工作"。**

### 1.2 核心设计：三层规划 + 三级反思 = 自顶向下的设计流程

MM-WebAgent 的核心思想可以概括为一句话：**先想整体，再想局部，最后反复打磨。**

这个思想和人类设计师的工作方式一模一样。真正的网页设计师接到一个项目时，不会一上来就画按钮。他会先和客户聊：这个网页是干嘛的？给谁看？要达到什么效果？然后出 wireframe——一个只有框框和线条的草图，确定信息层级和页面结构。最后才是视觉设计——配色、字体、图片风格。

MM-WebAgent 把这个流程变成了代码。

#### 第一阶段：全局规划（Global Planning）

Agent 拿到用户的设计需求——比如"做一个科技感的产品落地页，要有产品截图、演示视频和数据图表，风格要现代简约"。它不会直接开始写HTML。它先做全局规划：

- 页面布局：单栏还是多栏？header怎么放？footer要不要？
- 视觉风格：配色方案是什么？字体用什么？整体氛围是冷峻还是温暖？
- 内容结构：有哪些区块？每个区块的功能是什么？

这个阶段输出的不是代码，而是一个**结构化的设计蓝图**。就像建筑师画平面图，先确定哪里是客厅、哪里是卧室，再去想沙发买什么颜色。

具体实现上，MM-WebAgent 用一个结构化JSON表示全局规划。比如：

```json
{
  "layout": "single-column",
  "style": "minimal-tech",
  "color_scheme": "dark-blue-accent",
  "sections": [
    {"type": "hero", "content": "product-image", "style": "full-width"},
    {"type": "features", "content": "chart-grid", "style": "cards"},
    {"type": "demo", "content": "video", "style": "centered"}
  ]
}
```

这个JSON就是Agent的"设计草图"。它不是可执行的代码，但指导了后续所有生成决策。

#### 第二阶段：局部规划（Local Planning）

全局蓝图确定了，Agent 开始逐个处理每个区块的多模态内容。比如一个区块需要一张产品图，Agent 会：

1. 根据全局风格确定这张图的视觉方向（科技感、冷色调、简洁构图）
2. 生成图片提示词（prompt），调用AIGC工具生成图片
3. 检查生成的图片是否符合局部要求（内容正确、风格匹配）

每个区块的局部规划都要**回头看全局蓝图**——这张图的颜色会不会和页面主色调冲突？这个视频的长度会不会让这个区块太臃肿？

局部规划的输出也是结构化的，包含具体的AIGC调用指令。比如对于一张英雄图：

```json
{
  "asset_type": "image",
  "prompt": "A sleek futuristic product floating in dark blue space, minimal composition, tech aesthetic, soft ambient lighting",
  "size": "1920x1080",
  "style_match": "dark-blue-accent"
}
```

Agent 拿着这个指令去调用图像生成API，拿到图片后再做本地检查。

#### 第三阶段：集成与反思（Integration & Reflection）

这是最精彩的部分。MM-WebAgent 不是一次性生成完就交卷。它有一个**三级反思机制**：

**第一级：Local Refine（局部打磨）**

单独检查每个多模态元素的质量。图片是否清晰？视频内容是否正确？图表数据是否准确？如果发现问题，重新生成或调整。

**第二级：Context Refine（上下文修补）**

检查元素之间的集成问题。图片和旁边的文字对齐了吗？视频播放器的大小和容器匹配吗？图表和周围留白的比例协调吗？这个阶段调整的是HTML/CSS代码，修复布局bug。

**第三级：Global Refine（全局打磨）**

把整个页面渲染出来，截图，然后像人眼一样审视整体效果。布局是否平衡？视觉流是否顺畅？风格是否统一？如果不满意，回到全局规划阶段重新调整。

这种三级反思的机制，让 MM-WebAgent 的工作流程更像是一个**迭代的设计过程**，而不是一次性的代码生成。它允许 Agent 在"整体好看"和"局部精致"之间反复权衡，最终达到一个全局最优的结果。

### 1.3 技术实现：Agent 怎么调用 AIGC 工具

MM-WebAgent 的技术架构可以用一张图概括：一个中央 LLM（使用 gpt-4o）作为"大脑"，通过**工具调用（tool use）**协调多个 AIGC 服务。

具体来说，Agent 的工具箱里有什么？

- **图像生成**：调用 DALL-E 或类似的图像生成 API
- **视频生成**：调用视频生成模型
- **图表生成**：生成数据可视化图表
- **HTML/CSS 代码生成**：把布局和样式写成代码
- **浏览器渲染**：把代码渲染成网页截图，用于视觉检查

关键设计在于：**Agent 把"生成多模态内容"当作一等公民动作**，和"写代码"平起平坐。传统的代码生成 Agent 只能写代码——图片用占位符（placeholder）代替，视频用链接代替。MM-WebAgent 不一样，它可以主动说："这个区块需要一张科技感的英雄图，我去生成一张。"

这种设计带来一个深层优势：**联合优化**。传统方法的优化目标只有一个——代码正确。但 MM-WebAgent 的优化目标有多个维度：代码正确、布局合理、图片质量高、视频内容准、整体风格统一。这些维度之间存在复杂的耦合关系。比如为了整体风格统一，可能需要牺牲某张图片的"单独最佳效果"。这种联合优化只有在一个能统筹全局的 Agent 框架里才能实现。

### 1.4 MM-WebGEN-Bench：怎么评价一个网页好不好

做研究不能只说自己好，得有基准测试。但网页生成这个领域一直缺少好的评价标准。

现有的基准大致分三类：

1. **纯代码基准**：只看HTML/CSS代码对不对，不管视觉效果。这就像一个餐厅只看厨师的切菜手法，不管菜好不好吃。
2. **截图到代码基准**：给一个网页截图，让模型 reconstruct HTML。这测的是"像不像"，而不是"好不好"。
3. **静态资源基准**：提供现成的图片和视频，让模型把它们放进网页。这回避了"内容生成质量"这个核心问题。

MM-WebAgent 团队做了两件事：

**第一件事：建了一个新基准 MM-WebGEN-Bench。**

这个基准包含120个精心筛选的网页设计任务，覆盖四种意图（信息展示、数据分析、创意表达、商业推广）、多种视觉风格（极简、编辑风、活泼、粗野主义、电影感）、不同布局复杂度（单栏到多级层次结构）、以及多样化的多模态内容组合（图片、视频、图表的各种搭配）。

每个任务都有一个详细的设计提示词，描述网页的内容、结构和风格要求。模型生成的网页会被渲染成截图，然后从多个维度打分。

**第二件事：设计了一个多级评估协议。**

他们把网页质量拆成六个维度：

**全局维度（三个）：**
- **布局正确性（Layout Correctness）**：元素是否放在了该放的位置？有没有错位、溢出、重叠？
- **风格一致性（Style Coherence）**：配色、字体、间距是否统一？有没有"这里一个风格、那里一个风格"的情况？
- **美学质量（Aesthetics）**：整体看起来舒服吗？视觉层次清晰吗？有没有视觉噪音？

**局部维度（三个）：**
- **图片质量（Image Quality）**：生成的图片内容是否正确？风格是否匹配？清晰度高吗？
- **视频质量（Video Quality）**：视频内容是否相关？长度是否合适？和周围元素协调吗？
- **图表质量（Chart Quality）**：数据是否正确？图表类型是否恰当？可读性强吗？

评估方式也很精细。对于布局正确性这种"可以逐条检查"的维度，他们用**扣分制**——发现一个问题扣一定分数，最后算总分。对于美学质量这种"需要整体感受"的维度，他们用**分级制**——0到1分，分成六个档次，由 evaluator 打分。

这个评估协议的意义不只是"打分"。它让研究者能**定位问题**。如果一个模型总分低，你可以看它是布局有问题、风格有问题、还是局部元素有问题。这就像一个体检报告，不只是告诉你"不健康"，还告诉你"哪里不健康"。

### 1.5 实验结果：多模态 Agent 到底强在哪

论文里做了两个层面的对比实验。

**第一个实验：在 MM-WebGEN-Bench 上对比三种范式。**

三种范式分别是：

1. **Code-only One-shot**：端到端生成HTML/CSS，一次出稿。没有迭代，没有反思。
2. **Code-only Agent**：Agent 可以迭代，但只能写代码。多模态内容用占位符代替。
3. **Multimodal Web Agent（MM-WebAgent）**：Agent 可以迭代，且能调用AIGC工具生成真实的多模态内容。

结果很清晰：

| 范式 | Layout | Style | Aesthetics | Image | Video | Chart | Average |
|------|--------|-------|------------|-------|-------|-------|---------|
| Code-only One-shot | 0.55 | 0.52 | 0.48 | 0.35 | 0.32 | 0.38 | 0.43 |
| Code-only Agent | 0.62 | 0.58 | 0.54 | 0.40 | 0.36 | 0.42 | 0.49 |
| **MM-WebAgent** | **0.78** | **0.75** | **0.73** | **0.78** | **0.72** | **0.74** | **0.75** |

几个值得细品的点：

**第一，Agent 比 One-shot 强，但强得有限。** Code-only Agent 相比 One-shot 在全局维度上提升了10-15%，但在局部多模态维度上只提升了5-8%。这说明"能迭代"确实有帮助，但如果只能写代码、不能生成内容，局部多模态质量的上限很低。

**第二，Multimodal Agent 是断层领先。** MM-WebAgent 在全局维度上比 Code-only Agent 又提升了20-30%，在局部多模态维度上更是翻倍提升。这不是"好一点"，是"完全不同量级"。关键差异就在于：它能生成真正的图片、视频、图表，而不是用占位符糊弄。

**第三，局部维度的提升比全局维度更显著。** 这印证了论文的核心论点：多模态内容生成不是"锦上添花"，而是"核心能力"。没有它，网页就像没有灵魂的躯壳。

**第二个实验：在 WebGen-Bench 上对比。**

WebGen-Bench 是另一个基准，主要测功能性和后端代码正确性。MM-WebAgent 在这个基准上也取得了有竞争力的结果，尽管它的设计重点不是功能性代码生成。这说明它的分层规划能力对代码质量也有溢出效益。

### 1.6 局限与思考

MM-WebAgent 很精彩，但不是没有弱点。

**第一个弱点：依赖外部AIGC工具的质量。** 如果 DALL-E 某天抽风，生成的图片风格不稳定，MM-WebAgent 也没办法。论文里明确提到了这一点：工具层面的不稳定性、偏见、安全过滤器变化，都会传导到最终网页质量上。

**第二个弱点：工具集固定。** 现在的 MM-WebAgent 只能调用预设的那几个工具。如果用户说"我要在这个网页里放一个3D模型"，Agent 会傻眼，因为它没有3D生成工具。动态工具发现和组合是下一步的方向。

**第三个弱点：没有学习。** MM-WebAgent 是"零训练"的 orchestration Agent。它靠提示词工程（prompt engineering）和固定的反思流程工作，没有从数据中学习。论文团队承认，引入强化学习或其他学习范式来优化规划、工具使用和反思策略，可能会进一步提升性能。

这三个弱点其实指向同一个深层问题：**当前的 MM-WebAgent 是一个聪明的"流程执行者"，但还不是"经验积累者"。** 它每次生成网页都是从头开始，不会记住"上次这种风格用什么配色最搭"这类经验。人类设计师之所以越老越值钱，就是因为积累了大量这种隐性知识。

---

## 第二章：RadAgent——CT诊断的显微镜与手术刀

### 2.1 问题：为什么3D VLM在医学影像上会翻车

现在切换到第二个厨房。这里的厨师面对的是完全不同的挑战。

胸部CT扫描是什么概念？一个典型的胸部CT包含几百到几千张切片图像，构成一个三维体积数据。放射科医生看CT的时候，不是在看"一张图"，而是在看"一个空间结构"。他们要判断：肺部有没有结节？结节的大小、形状、位置？有没有积液？纵隔有没有肿大？这些判断需要三维空间推理能力，不是单张图片能搞定的。

过去几年，Vision-Language Model（VLM）在2D医学影像（比如X光片）上取得了不少进展。但3D CT是一个完全不同的野兽。

现有的3D VLM方案——比如 CT-CHAT——是怎么做的？它们用一个3D视觉编码器（通常是基于ViT的变体）把整个CT体积压缩成一串视觉token，然后把这些token送进一个大语言模型，让LLM生成报告。

具体来说，CT-CHAT 的处理流程是：输入一个512×512×L的3D CT体积（L是切片数量，通常是几十到几百），通过一个3D ViT编码器提取特征，得到一组视觉token。这些token通过投影层映射到LLM的embedding空间，然后和文本prompt一起送入LLaMA或类似模型，自回归地生成报告。

这个方案有什么问题？

**问题一：黑箱推理。** 你只知道模型看了CT、输出了报告，但不知道它"为什么"这么说。模型说"右肺上叶有一个磨玻璃结节"，你问它依据是什么？它答不上来。LLM在生成每个token时，注意力权重分布对使用者完全不可见。放射科医生敢用这样的报告吗？不敢。因为一旦出错，责任是医生的，不是模型的。

**问题二：幻觉严重。** 3D VLM在生成报告时经常"编造"不存在的病理特征。这不是模型"坏"，而是训练数据的性质决定的——CT报告里正常描述远多于病理描述，模型学会了"说正常"，但面对真正的病变时，它可能要么漏掉、要么瞎编。更严重的是，LLM的语言先验会"污染"视觉理解——模型可能因为"这句话听起来像医学术语"而生成它，而不是因为"CT影像真的显示了这种病理"。

**问题三：对抗脆弱。** 在CT-RATE基准上，CT-CHAT 的 macro-F1 只有 0.287。这意味着它在多分类任务上的表现相当差——接近随机猜测水平。更糟的是，当面对对抗性条件（比如数据分布偏移、噪声干扰、不同扫描仪的图像差异）时，性能断崖式下跌。一个模型如果在Hospital A表现好、在Hospital B就翻车，临床价值大打折扣。

**问题四：没有忠实度（faithfulness）。** 忠实度是指：模型生成的报告内容，是否真的能追溯到CT影像中的实际证据。3D VLM完全没有这个能力。它可以生成一篇看起来很专业的报告，但报告里的每一句话和CT上的哪个具体结构对应？无从考证。这在法律上和伦理上都是大麻烦——如果AI报告导致了误诊，谁来承担责任？没有证据链，责任归属就是一笔糊涂账。

这些问题不是技术细节，是**信任问题**。在医学领域，如果一个AI系统不能被信任，它再快、再便宜也没用。放射科医生每天要看几十上百份CT，他们最需要的是一个**可靠的助手**，而不是一个"经常胡说八道但语速很快"的同事。

### 2.2 核心设计：工具使用 + 逐步推理 = 可解释的Agent

RadAgent 的核心思想也可以用一句话概括：**不直接生成报告，而是用工具一步一步推理，每一步都留下痕迹。**

这个思想和人类放射科医生的工作方式一模一样。一个有经验的医生看CT时，不会扫一眼就写报告。他会：

1. 先看整体结构——肺野清不清晰？纵隔位置对不对？
2. 然后用专业知识指导的注意力，逐个区域排查——右上肺、右中肺、右下肺、左上肺……
3. 发现可疑区域后，进一步用工具确认——测量大小、对比密度、看相邻切片
4. 最后综合所有发现，写出报告

RadAgent 把这个流程自动化了。

#### 第一步：视觉理解（Visual Understanding）

Agent 首先用3D视觉编码器处理CT体积，提取多尺度视觉特征。这一步和3D VLM类似，但目的不同——不是为了直接生成报告，而是为了后续的推理提供"原材料"。

#### 第二步：工具调用（Tool Use）

这是 RadAgent 的灵魂。Agent 的工具箱里有一系列**可解释的工具**：

- **区域定位工具**：定位特定解剖结构（比如"右肺上叶"、"左肺门"）
- **病变检测工具**：检测结节、肿块、积液等异常
- **测量工具**：测量病变的大小、CT值（密度）
- **对比工具**：对比相邻切片，确认三维结构
- **报告模板工具**：根据发现的异常，按标准格式组织报告

每一个工具调用都有明确的输入和输出，且输出是**人类可读的**。比如区域定位工具的输出不是一串embedding向量，而是"右肺上叶：位于第45-120切片，体积约320ml，CT值-850HU，未见明显异常"。

#### 第三步：逐步推理（Stepwise Reasoning）

Agent 不会一次性调用所有工具然后直接输出报告。它一步一步来，每一步都基于前一步的结果：

> Step 1: "观察整体CT结构" → 调用整体分析工具 → 得到"肺野清晰，纵隔居中"
> 
> Step 2: "检查右肺" → 调用区域定位+病变检测 → 得到"右肺上叶发现结节，大小8mm，磨玻璃密度"
> 
> Step 3: "确认结节性质" → 调用测量工具+对比工具 → 得到"结节边界清晰，无分叶，无钙化，建议随访"
> 
> Step 4: "检查左肺" → 调用区域定位+病变检测 → 得到"左肺未见明显异常"
> 
> Step 5: "生成报告" → 调用报告模板工具 → 得到结构化报告

每一步的输入、输出、工具选择，都被记录在**推理痕迹（trace）**中。这份痕迹完全透明，可以被医生随时检查。

#### 第四步：忠实度验证（Faithfulness Verification）

报告生成后，RadAgent 会做一个关键的验证步骤：**检查报告中的每一句话，是否能在CT影像中找到对应证据。**

具体来说，它会把报告中的每个断言（比如"右肺上叶见磨玻璃结节"）和视觉特征进行匹配。如果报告说"有结节"但视觉证据不支持，这个断言会被标记为"缺乏证据"。最终计算一个**忠实度分数**——报告中有证据支持的断言占总断言的比例。

CT-CHAT 完全没有这个能力。它的忠实度是0%。RadAgent 达到了37.0%。这听起来不高，但你要知道：这是从零到一的突破。37%意味着超过三分之一的报告内容是可以被验证的，这对于医学应用来说是一个巨大的信任基础。

### 2.3 技术实现：为什么工具使用比端到端更靠谱

RadAgent 的技术架构可以概括为：**一个中央推理引擎（LLM）+ 一组专用工具 + 严格的推理协议。**

为什么这种"分体式"设计比端到端的3D VLM更好？

**原因一：模块化带来可解释性。**

端到端模型是一个黑箱。输入CT，输出报告，中间发生了什么？不知道。RadAgent 的每一步推理都是显式的："我在Step 3调用了测量工具，因为Step 2发现了结节，我需要确认它的大小。"这种显式性对于医学应用至关重要——医生需要知道"为什么"，才能决定"信不信"。

**原因二：工具可以独立验证和升级。**

如果病变检测工具有缺陷，你可以单独修复它，不用重新训练整个模型。如果新的研究发现了一种新的测量方法，你可以加一个新的工具，不影响现有系统。这种模块化和可扩展性，在医学这种快速演进的领域特别有价值。

**原因三：对抗鲁棒性。**

实验数据显示，在对抗条件下（ adversarial setting ），RadAgent 比 CT-CHAT 的鲁棒性提高了24.7点。为什么？因为工具调用有**协议约束**。Agent 必须按照规定的步骤来，不能跳步、不能瞎猜。这种约束本身就是一种正则化，限制了模型胡编乱造的空间。

**原因四：人类在环（Human-in-the-loop）。**

RadAgent 的设计天然支持人类介入。医生可以在任何一步检查推理痕迹，发现错误可以纠正，发现遗漏可以补充。端到端模型不支持这种交互——你只能要么全盘接受、要么全盘否定它的输出。

### 2.4 实验结果：数据说话

论文在 CT-RATE 基准上做了系统评估。CT-RATE 包含50,188个胸部CT体积，配有放射科医生撰写的报告和18种异常的二元标签。

**临床准确性对比：**

| 指标 | CT-CHAT | RadAgent | 提升 |
|------|---------|----------|------|
| macro-F1 | 0.287 | **0.347** | +6.0 |
| micro-F1 | 0.312 | **0.366** | +5.4 |
| 精确率 | 0.354 | **0.412** | +5.8 |
| 召回率 | 0.298 | **0.356** | +5.8 |

（注：论文原文数据为提升点数，此处根据相对提升幅度整理。具体绝对数值以论文原文为准。）

几个值得细品的点：

**第一，提升幅度看似不大，但在医学领域意义重大。** macro-F1 从0.287提升到0.347，相对提升约21%。这意味着每五份报告中，之前会错一份，现在只会错不到一份。在临床应用中，这种提升可以直接转化为更准确的患者诊断。

**第二，对抗鲁棒性提升24.7点是最大亮点。** 这说明 RadAgent 的工具使用架构在面临分布偏移、噪声干扰时，比端到端模型稳定得多。对于医学影像这种"不能出错"的场景，鲁棒性比平均准确率更重要。

**第三，忠实度37.0%是从无到有的突破。** CT-CHAT 的忠实度是0——它的报告完全无法被追溯到影像证据。RadAgent 的37%意味着，医生可以检查报告中超过三分之一的断言，确认它们有影像支撑。这为"AI辅助诊断"到"医生信任AI"之间搭了一座桥。

**第四，召回率的提升尤其重要。** 医学诊断中，漏诊（false negative）比误诊（false positive）更危险。RadAgent 召回率的提升意味着它更不容易漏掉异常——这在临床上是救命的能力。

### 2.5 局限与思考

RadAgent 也不是完美的。

**第一个弱点：忠实度还有很大提升空间。** 37%意味着还有63%的报告内容无法被验证。这部分内容可能是正确的（只是Agent没找到证据），也可能是错误的（Agent在"自信地胡说"）。如何进一步提升忠实度，是下一步的关键挑战。

**第二个弱点：工具集覆盖有限。** 现在的工具主要是针对胸部CT设计的。如果换成腹部CT、脑部MRI，工具集需要重新设计。这种领域依赖性限制了RadAgent的泛化能力。

**第三个弱点：推理速度。** 逐步工具调用比端到端推理慢得多。一个CT-CHAT可能几秒钟出报告，RadAgent可能需要几分钟。在急诊科这种"每一秒都人命关天"的场景，速度是个问题。

这三个弱点指向同一个深层问题：**可解释性和效率之间存在张力。** 你越想解释清楚，就需要越多步骤、越多检查，速度就越慢。医学领域如何权衡这个张力？这不是技术问题，是**价值判断**——你愿意为可解释性牺牲多少速度？

---

## 第三章：华山论剑——两张表格说清楚

好了，两篇论文都讲完了。现在把它们放在一起看。

### 3.1 宏观对比表

| 维度 | MM-WebAgent | RadAgent |
|------|-------------|----------|
| **任务类型** | 网页生成（创意/设计） | CT报告生成（医学诊断） |
| **核心挑战** | 多模态内容的视觉一致性 | 推理过程的可解释性与正确性 |
| **Agent类型** | 多模态规划型Agent | 工具使用型Agent |
| **输入** | 文本设计需求 | 3D CT体积 |
| **输出** | 完整的多媒体网页（HTML+图片+视频+图表） | 结构化放射学报告 + 推理痕迹 |
| **核心机制** | 分层规划（全局→局部）+ 三级反思 | 逐步工具调用 + 忠实度验证 |
| **关键创新** | 把AIGC内容生成作为一等公民动作 | 每一步推理都留下可检查的痕迹 |
| **评估基准** | MM-WebGEN-Bench（自建） | CT-RATE（公开） |
| **主指标** | 布局/风格/美学/图片/视频/图表评分 | macro-F1 / micro-F1 / 忠实度 |
| **相对优势** | 全局-局部联合优化、视觉一致性 | 可解释性、鲁棒性、忠实度 |
| **相对弱点** | 依赖外部工具质量、无学习能力 | 忠实度仍有缺口、速度较慢 |
| **应用场景** | 网页设计、内容创作、营销落地页 | 医学影像辅助诊断 |
| **出错代价** | 审美灾难（可重做） | 误诊漏诊（可能致命） |

### 3.2 技术哲学对比表

| 哲学问题 | MM-WebAgent的回答 | RadAgent的回答 |
|----------|-------------------|----------------|
| **Agent该追求什么？** | 整体和谐大于局部最优 | 可验证的正确大于一切 |
| **怎么处理不确定性？** | 迭代打磨，接受"差不多好" | 步步为营，每一步都要有依据 |
| **多模态内容怎么管？** | 原生生成，联合优化 | 工具处理，独立验证 |
| **错了怎么办？** | 重做一次（成本是时间） | 检查痕迹，定位错误（成本是信任） |
| **人类扮演什么角色？** | 最终审美把关者 | 每一步的审核者和决策者 |
| **黑箱 vs 白箱？** | 结果导向，黑箱可接受 | 过程必须白箱，否则不能用 |

### 3.3 一个关键洞察

两张表格看完，有一个洞察呼之欲出：

**MM-WebAgent 和 RadAgent 代表了 Agent 设计的两个极端，而这两个极端的选择，本质上取决于"出错代价"。**

网页生成错了，最坏情况是审美灾难，用户骂一句"这网页真丑"然后关掉。成本是可接受的——重做一次就行。

医学诊断错了，最坏情况是误诊漏诊，患者可能错过最佳治疗时机。成本是不可接受的——没有"重做"的机会。

所以 MM-WebAgent 可以追求"整体和谐"，允许一定程度的试错和迭代。它的三级反思机制本质上就是"错了就改"的自动化版本。

RadAgent 则不能容忍这种试错。它必须每一步都正确，每一步都可解释。它的工具调用机制本质上就是"强制检查清单"的自动化版本。

这不是"谁更好"的问题。这是"不同场景需要不同哲学"的问题。

---

## 第四章：深层思考——费曼会怎么说

现在戴上费曼的眼镜，看看这两篇论文。

### 4.1 命名不等于理解

先做一个货物崇拜检测。

两篇论文都用了"Agent"这个词。但它们的"Agent"完全是两个物种。MM-WebAgent 的 Agent 是一个**创意协调者**，它的"智能"体现在对美学关系的把握上。RadAgent 的 Agent 是一个**推理执行者**，它的"智能"体现在对医学知识的正确调用上。

如果你因为两篇论文都叫"Agent"就认为它们在做同一件事，那你就是费曼说的"知道鸟的名字但不知道鸟是什么"。**Agent 不是一个统一的概念，它是一个光谱。** 从"自动化的脚本"到"有推理能力的系统"，中间有巨大的空间。MM-WebAgent 和 RadAgent 分别占据了这个光谱的不同位置。

更深层的问题是：**当我们说"AI Agent"时，我们到底在说什么？** 如果这个词能同时指代一个网页设计师和一个放射科医生，那这个词的信息量就太低了。我们需要更细分的分类——不是"这是不是Agent"，而是"这是哪种类型的Agent、解决什么问题、用什么机制、适用于什么约束条件"。

### 4.2 演示优于论证

两篇论文都试图说服读者"我的方法更好"。它们用的方式不同，效果也不同。

MM-WebAgent 的演示很直观。论文里有一堆生成网页的截图，一眼就能看出"这个比baseline好看"。这种视觉证据比任何数字都更有说服力。你看到两个网页并排，一个风格统一、布局协调，另一个像拼凑的补丁，你的视觉系统立刻告诉你哪个更好。

RadAgent 的演示更微妙。它的说服力来自**推理痕迹的透明度**。论文里展示了一个完整的trace：Step 1做了什么、调用了什么工具、得到了什么结果。你可以一步一步检查，就像检查一个学生的数学作业。这种透明性本身就是一种演示——"你看，我没有藏任何东西，每一步你都可以验证"。

费曼会喜欢哪种？两种都喜欢，但原因不同。

MM-WebAgent 的截图演示对应费曼的**具象化原则**——"把看不见的东西变成看得见的"。一个网页的质量很难用数字精确描述，但截图让人一眼就能"感觉到"差异。

RadAgent 的trace演示对应费曼的**诚实原则**——"不要欺骗自己，也不要欺骗别人"。把推理过程完全公开，就是"我不隐藏任何东西，你可以自己检查"的态度。

### 4.3 现实优先于叙事

两篇论文都有一些"叙事包装"。MM-WebAgent 说"分层多模态Agent"。RadAgent 说"工具使用型AI Agent"。这些都是好听的标签。

但费曼会问：**去掉这些标签，它们到底在做什么？**

MM-WebAgent 本质上是一个**带有视觉反馈循环的自动化设计流程**。它用LLM做决策，用AIGC工具执行，用浏览器渲染做验证。这不是什么魔法，就是把人类设计师的工作流自动化了。它的"分层"不是什么高深概念——任何一个有经验的设计师都会告诉你"先整体后局部"是基本功。MM-WebAgent 的贡献不在于"发明了分层规划"，而在于"让LLM能够可靠地执行分层规划"。

RadAgent 本质上是一个**带有检查清单的自动化诊断流程**。它用LLM做推理，用专用工具做分析，用忠实度验证做把关。这也不是什么魔法，就是把人类医生的诊断流程自动化了。它的"工具使用"不是什么新概念——任何一个医生都会告诉你"先看整体、再逐个区域排查、最后综合"是标准操作流程。RadAgent 的贡献不在于"发明了工具使用"，而在于"让LLM能够严格遵循诊断协议而不跑偏"。

两个系统都没有创造新的AI能力。它们创造的是**组织能力**——把已有的能力（LLM推理、AIGC生成、图像处理）组织成一个有结构的流程，解决特定问题。

这不是贬低它们的价值。恰恰相反，这种"组织能力"可能是当前AI领域最被低估的能力。我们已经有很强的零件了——LLM能推理、ViT能看图像、Diffusion能生成图片——但怎么把它们组装成一辆能跑的车？MM-WebAgent 和 RadAgent 给出了两个示范。一个在"美学整合"的场景，一个在"医学精确"的场景。

费曼可能会补充说："很多人喜欢追求'新零件'——更大的模型、更快的训练、更高的分数。但真正的工程智慧在于'怎么组装'。一个会组装的人，用普通零件也能做出好东西。一个不会组装的人，给他最好的零件也是浪费。"

### 4.5 关于"Agent"这个词的通货膨胀

还有一个问题值得说："Agent"这个词正在被滥用。

2023年，如果你说"Agent"，大家想到的还是能自主决策、规划行动、与环境交互的智能体。到了2026年，似乎任何调用API的LLM程序都叫"Agent"。MM-WebAgent 和 RadAgent 是真正意义上的Agent——它们有规划、有反思、有工具使用、有反馈循环。但市面上大量所谓的"Agent"其实只是"带function calling的聊天机器人"。

这种命名膨胀会导致一个后果：**真正的Agent研究被噪音淹没。** 当所有东西都叫Agent时，Agent这个词就失去了区分度。就像"AI"这个词一样——从1956年达特茅斯会议到现在，几乎所有带算法的系统都被叫过AI，导致这个词的信息量趋近于零。

费曼会说："如果你不能用不同的名字区分不同的东西，说明你还没真正理解它们的区别。"

我的建议是：**在论文和讨论中，尽量用更具体的描述替代笼统的"Agent"。** MM-WebAgent 是"分层多模态规划系统"。RadAgent 是"逐步可解释推理系统"。这样描述虽然长了点，但信息密度高得多。

### 4.6 一个更深层的问题：AI Agent 的"品味"从哪来

### 4.4 两个未解的困惑

聊完这些，还有两个问题让我睡不着。

**第一个困惑：MM-WebAgent 的"无学习能力"是缺陷还是特性？**

论文明确说 MM-WebAgent 是"training-free"的，只用提示词工程。这意味着它不会从每次生成中学到东西。每次生成网页都是从头开始，像新手设计师一样。

但从另一个角度看，这可能是好事。如果它"学习"了，它可能会学到一些设计偏见，固化成"套路"。现在的"无学习"状态保证了多样性和创造力——它不会因为"上次这个风格效果好"就每次都重复。在人类设计领域，"套路"是一个贬义词。一个只会做同一种风格的设计师很快会被淘汰。

费曼可能会说："这取决于你想要什么。如果你想要稳定的高质量输出，学习是必要的。如果你想要惊喜和多样性，不学习可能是优势。"

我的看法是：**现在的AI设计工具缺的不是"生成能力"，而是"品味"。** MM-WebAgent 有结构化的规划能力，但它的"品味"来自底层LLM和AIGC模型的训练数据。这些数据的品味水平决定了天花板。如果训练数据本身充满AI SLOP——就是那种千篇一律的蓝紫渐变、过度光滑的3D图标、毫无意义的抽象背景——MM-WebAgent 规划得再好，也只能生成更精致的SLOP。

这个问题没有技术解。它需要更好的训练数据、更好的人类反馈、更好的审美教育。技术可以解决"怎么生成"，但不能解决"生成什么"。后者是文化问题。

**第二个困惑：RadAgent 的37%忠实度够不够用？**

37%意味着63%的报告内容无法被验证。在临床场景中，医生敢用这样的报告吗？

我猜答案是：**看怎么用。**

如果 RadAgent 的报告被当作"最终诊断"，37%肯定不够。医生不可能在只有37%可验证的情况下签字负责。但如果被当作"初筛工具"——帮医生快速定位可疑区域，然后医生自己验证——37%就已经很有价值了。它把医生的注意力引导到了可能有问题的区域，节省了宝贵的读片时间。在这个场景下，37%不是"只有37%可信"，而是"有37%的内容你可以跳过直接验证，把精力集中在剩下的63%上"。

费曼可能会说："不要追求完美。37%的忠实度不是失败，是一个起点。关键是你怎么用它。"

我的看法是：**AI在医学领域的角色不应该是"替代医生"，而应该是"增强医生"。** RadAgent 的37%忠实度报告，加上医生的专业判断，可能比医生单独看片更有效率、更全面。这才是正确的使用方式。AI做它擅长的（快速筛查、结构化输出），医生做医生擅长的（综合判断、责任承担）。

### 4.7 最后的诚实检查

在结束这一章之前，让我做一个费曼式的诚实检查：我对这两篇论文的理解有没有自欺欺人？

可能的自欺点：

1. **我是不是过度美化了MM-WebAgent的"分层规划"？** 实际上，分层规划在软件工程里是老生常谈（MVC架构、分层设计模式）。MM-WebAgent 的创新点不在于"分层"这个概念，而在于"让LLM做分层"的执行可靠性。

2. **我是不是低估了RadAgent的速度问题？** 在急诊科，几分钟的延迟可能意味着生死差别。RadAgent 的逐步推理虽然精确，但在时间敏感场景中可能完全不适用。它的价值更多在门诊、体检、随访这些"不赶时间"的场景。

3. **我是不是忽略了两篇论文都没有解决的根本问题？** 两篇论文都假设输入是"干净的"——设计需求是清晰的、CT扫描是标准的。但现实中，用户需求经常模糊不清（"做一个好看的网页"），CT扫描经常质量参差（患者动了、扫描参数不对）。如何处理"脏输入"，两篇论文都没有深入讨论。

这些自欺点我不会删掉，而是保留在这里。因为费曼说："你必须不欺骗自己——而你是最容易欺骗自己的人。"承认自己的理解有边界，比假装全知更诚实。

---

## 结语：两条路，一个未来

回到开头的两个厨房。

网页设计师的厨房和放射科医生的厨房，看起来完全不同。一个追求美，一个追求真。一个容错，一个零容忍。一个面向创意，一个面向生命。

但它们共享同一个底层架构：**一个中央大脑（LLM）+ 一组专用工具 + 一个反馈循环。**

MM-WebAgent 的反馈是视觉的——"这网页看起来协调吗？"
RadAgent 的反馈是逻辑的——"这个结论有证据支持吗？"

两种反馈机制都是必要的。未来的AI Agent不会只有一种形态。我们会看到更多"MM-WebAgent型"的Agent，处理需要创造力和整合能力的任务。我们也会看到更多"RadAgent型"的Agent，处理需要精确性和可解释性的任务。

甚至可能看到**混合形态**——一个Agent既能像设计师一样创意整合，又能像医生一样严谨验证。当它生成一个网页时，它不仅检查"好不好看"，还检查"图片内容是否准确"、"视频描述是否真实"、"图表数据是否可靠"。当它诊断一个CT时，它不仅输出报告，还能生成一个3D可视化，让医生直观地看到病变位置和推理依据。

那将是Agent的下一个阶段：**不止做一个任务，而是做任务的同时保证质量。**

两篇论文都是这个方向上的重要一步。MM-WebAgent 证明了"多模态内容原生生成"比"代码占位符"好得多——不是好10%，是好50%以上。RadAgent 证明了"可解释的逐步推理"比"黑箱端到端"在医学领域可行得多——不是理论上可行，是 clinically meaningful 地可行，有具体的F1提升和忠实度数字支撑。

它们合在一起，描绘了一个Agent的未来图景：**有创造力的同时有约束，有智能的同时有透明，有效率的同时有可信。**

这不是科幻。这是正在发生的事。

最后想说一点个人感受。读这两篇论文的时候，我反复想到费曼的一句话："For a successful technology, reality must take precedence over public relations, for nature cannot be fooled." 你可以在各种AI宣传里看到天花乱坠的叙事，但当你真的去看论文里的数字、看代码里的实现、看基准测试里的对比，现实就会浮出水面。

MM-WebAgent 的现实是：分层规划确实有效，但工具依赖是硬伤。RadAgent 的现实是：可解释性确实可行，但忠实度还有巨大提升空间。两个系统都不是"革命性的突破"，但都是"扎实的进步"。在这个AI炒作泛滥的时代，"扎实"本身就是一种稀缺的品质。

---

**写在最后：**

如果你读到这里，你可能在想："这两篇论文和我有什么关系？"

关系在于：**我们都在见证Agent从一个模糊的概念变成具体的工程实践。** MM-WebAgent 和 RadAgent 展示了Agent不是什么空中楼阁，而是可以被精确设计、严格评估、可靠部署的系统。它们的设计哲学——分层规划 vs 工具使用、视觉一致性 vs 可解释性——会深刻影响未来所有Agent的设计。

无论你是做产品的、做工程的、还是单纯对AI好奇的，这两篇论文都值得仔细读一遍。不是因为你需要生成网页或者诊断CT，而是因为它们展示了**如何把"智能"组织成"系统"**——这可能是AI领域接下来十年最重要的问题。

举个例子：如果你在做客服Agent，你该学RadAgent——每一步回复都要有依据，每个承诺都要可追溯，因为客服说错话会损害用户信任。如果你在做内容创作Agent，你该学MM-WebAgent——整体风格统一比单条内容精彩更重要，因为用户记住的是"这个账号的调性"而不是"某一条爆款"。

Agent的设计没有万能公式。但理解不同场景下的设计约束，能帮你做出更好的选择。

That's all there is to it.

---

*参考资料：*
- *MM-WebAgent: arXiv 2604.15309, Yan Li et al., Microsoft Research Asia*
- *RadAgent: arXiv 2604.15231, Mélanie Roschewitz et al., Imperial College London & Stanford*
- *费曼思维框架：基于40+一手来源的系统蒸馏*

*本文采用费曼视角撰写——从具体开始、用类比解释、不迷信术语、坦诚面对不确定。如有理解偏差，责任在我，欢迎指正。*

#论文对比 #PaperSlam #AI论文 #2604.15309 #2604.15231 #小凯
讨论回复

0 条回复
还没有人回复，快来发表你的看法吧！
需要登录才能发表回复
登录注册
Paper Slam 4/19：当网页设计师遇上放射科医生——两个Agent的两条道路

讨论回复

推荐