Crafter：科研图表的「生成-编辑」全流程，终于被打通了

做科研的人，画过图的都懂。

不是不会画。问题是，画一张能用的图，所花的时间有时候比写一段方法描述还长。你调配色、对齐箭头、改字体大小，来来回回十几遍。最后导师来一句"这里标签错了"，你盯着那张 PNG，想改，却发现无从下手——要么从零重画，要么用 PS 硬抠。

更麻烦的是，现有 AI 工具在这一块几乎都在"偏科"。有的只能生成一张静态图，不能改。有的只能做某一种特定图，比如只画方法流程图。有的只能根据纯文字描述来画，你手绘的草图它看都不看。

UIUC、清华、北大联合团队这篇 Crafter，把这三个窟窿一次性补上了。

---

一、科研图为什么比风景图更难做？

风景图可以"差不多就行"。科研图不行。

它本质上是一张结构化信息面板——标签框、箭头、图标、注释，每个元素都有精确语义和位置关系。箭头指错了，整段描述就崩了。标签重叠了，读者就读不懂了。

这给 AI 生成带来了三个真实的技术难点：

第一，生成方差太大。

同样一个 prompt，图像模型每次生成的布局都不一样。这次箭头指向对了，但标签错写了。下次标签对了，布局又歪了。你试十次，十次错在不同地方。这不像写代码可以 debug，更像在掷骰子——你永远不知道下一个错在哪里。

第二，自由文本修改会自相矛盾。

"把标题放大"、"减少留白"、"箭头往左移"。如果你把这些修改指令都追加到 prompt 后面，模型会默默地把矛盾指令一起吃进去。它不会告诉你"这两个要求冲突了"，它只会产出一个四不像。问题在于修改方式本身，不是模型不够强。

第三，反馈没有可操作性。

你说"这张图质量 5/10"，模型听了等于没听。它需要的是一份具体的诊断报告——"箭头 A 的终点偏离了目标框 3 个像素"、"标签 B 和图示 C 重叠了"——这样它才知道往哪改。

---

二、Crafter 的思路：不换一个更强的引擎，而是套一个 harness

作者团队把这三个问题分析得很透，然后提出了一个关键判断：

科研图生成的问题，不需要更强的 backbone（底层模型），而是需要一个 harness——一个围绕生成引擎的编排层，负责规划、验证、修正。

这个 harness 的核心是一个共享的结构化规范（specification）。五个智能体围着它转：

意图推理器：分析你的输入——文字、草图、参考图——提炼出这张图到底要传达什么
规划生成器：根据规范提出多个候选方案。横幅布局？多栏网格？上下分层？一次给你几个选项
图像生成后端：把方案渲染成图
批评器：检查生成结果，不是打个分完事，而是输出具体诊断——哪里错了、为什么错、怎么改
规范精修器：把诊断转化为类型化编辑操作——比如 "添加约束：标题居中"、"禁止元素：装饰性图标"、"调整大小：元素 A 放大到 120%"——然后写回共享规范

还有一个收敛裁判，决定什么时候接受、什么时候继续改、什么时候回退到上一版最好结果。

最关键的设计在这里：所有修改都以类型化操作写入规范，而不是追加自由文本到 prompt。这从根本上避免了矛盾累积。

---

三、三个机制：为什么 Crafter 不是"多试几次"那么简单

机制一：并行探索，先选对框架

规划生成器一次提出 K 个候选方案，不同布局、不同风格，并行渲染。批评器打分后，选最好的那个作为后续精修的基础。

这和"生成一张再改"的区别在哪？

如果第一张图在构图层面就有硬伤——比如应该用对比网格却画成了流程图——那后续所有修改都是在这个错误框架上修修补补。你调箭头粗细、改标签颜色，但根本结构是错的。并行探索的好处是：在投入精修预算之前，先 escape 掉这种根本性错误。

论文里的实验很直白：去掉并行探索，分数掉 8.56 分。可读性维度掉得最狠，因为框架一旦选错，后续怎么改都救不回来。

机制二：结构化修正，拒绝 prompt 堆积

这是整个系统最精妙的地方。

传统做法是这样的：prompt → 生成 → 不满意 → 在 prompt 后面加一句"把标签放大" → 再生成 → 再加一句"箭头往左移" → 再生成……prompt 越来越长，矛盾越来越多。

Crafter 不这样。它把批评器的诊断转化为结构化操作——不是加在 prompt 后面，而是写入一个独立的规范数据结构。下一轮的 prompt 从这个数据结构重新组装，而不是在上一个 prompt 上 append。

打个比方：传统方式像在一篇文章上不断贴便利贴，便利贴多了就互相遮盖、互相矛盾。Crafter 方式像在维护一个数据库，每次修改都是原子操作，数据库始终保持一致，下一轮的 prompt 从数据库重新生成。

实验结果：换成自由文本修正，分数掉 8.90 分。这是所有消融里掉分最狠的一项，说明矛盾累积是科研图生成的头号杀手。

机制三：定向批评，不是打分，而是开处方

批评器输出的不是"这张图 6/10"。它输出的是：

六个维度的分项评分（内容忠实度、可读性、布局、格式等）
具体识别出的缺陷（"标签 X 与元素 Y 重叠了"）
建议的修正操作
修正后的图描述

精修器把这些诊断转化为规范上的操作，下一轮生成注入这些修正指引。循环最多跑 3 轮，如果当前轮反而比上一轮差了，直接回退到之前最好的版本——因为 LLM 驱动的迭代修改不是单调递增的，有时候会越改越糟。

实验结果：去掉循环，掉 5.48 分。去掉定向批评，掉 5.04 分。两个都必要，但结构化修正层（机制二）的影响更大。

---

四、CraftEditor：从"画完"到"能改"

Crafter 生成的是栅格图（PNG/JPG），但科研工作者经常需要改某个标签、换个配色、或者调整布局。CraftEditor 负责把栅格图转成可编辑的 SVG，复用的是同样的 harness 模式。

提取阶段：VLM 分析师看原始图，制定一个"保留/删除"计划——哪些元素保留、哪些背景/文字层去掉。一个可指令化图像编辑器执行这个计划，产生干净的画布。批评器检查清理后的结果，最多 3 轮。

处理阶段：每个元素被标注、定位、分类——是矢量还是栅格。

组合阶段：分析师生成两个候选 SVG 骨架，选更好的那个，把提取的元素插入骨架。然后进入批评器驱动的循环。这里的批评器是混合式的：VLM 检查全局布局忠实度和语义对应，程序检查器审计结构属性（文字溢出、箭头终点精度、元素重叠）——这些东西光靠视觉模型容易漏。

循环最多 4 轮，有回退机制。实验结果：CraftEditor 在 7 个评估维度上全面领先现有基线（Edit-Banana、AutoFigure-Edit），整体得分 8.04 对 6.91 和 3.69。

---

五、CraftBench：终于有一个不"偏科"的评测基准

现有基准都有各自的盲区：

基准	测什么	盲区
PaperBanana-Bench	文本→方法图	只测一种类型、一种输入
SridBench	13 个领域的文本→图	还是只测文本输入
IGenBench	信息图	只测一种图类型
SciFlow-Bench	流程图	只测流程图

CraftBench 覆盖 3 种图类型 × 4 种输入条件：

文本→图（179 个样本）
mask 补全（30 个样本）
关键元素组合（30 个样本）
草图条件生成（40 个样本）

风格上：学术图（140）、海报（109）、信息图（30）。数据来自 18 个研究领域的 arXiv 论文、获奖会议海报、研究博客。经过 7 阶段质量过滤，最后还有 3 人 unanimity 人工审核——只有三人都同意，样本才进基准。

---

六、实验结果：Crafter 在每个维度都是最好的

主实验：Crafter 在 PaperBanana-Bench 和 CraftBench 上都是最高分，领先最强 agentic 基线：

PaperBanana-Bench：+16.61 分
CraftBench：+22.20 分

而且在每个维度、每个任务上都是最高分。这不是某个特定场景的 trick，是系统性优势。

更值得注意的是：把后端从 Nano Banana 2 换成更强的 Nano Banana Pro，整体分数只提升 0.34-2.10 分。这说明harness 层的贡献基本独立于生成器能力——更强的未来模型可以直接接入，不需要改架构。这是工程上最实用的设计。

消融实验：去掉任意一个机制，分数下降 5.04-8.90 分。每个机制都独立且必要。结构化修正层的贡献最大（-8.90），说明矛盾累积是科研图生成的头号杀手。

---

七、为什么这篇论文值得关注

第一，它提出了一个更通用的范式。

科研图生成不是"更强的扩散模型"能解决的。真正需要的是结构化编排——这个洞察适用于很多结构化输出场景：代码生成、表格生成、图表生成、PPT 生成。论文里提到的 harness 概念，可能成为一个比具体模型更持久的架构思路。

第二，它打通了端到端闭环。

不只是"生成一张漂亮图"，而是"生成一张能改、能迭代、能复用的图"。从生成到编辑全链路打通，这在实际工作流里才是最有价值的事。

第三，执行器无关。

Harness 层可以插拔不同后端。今天用 Nano Banana，明天换 GPT-Image，后天换 whatever，系统架构不用改。这在模型迭代速度极快的当下，是非常务实的工程选择。

第四，评测不再偏科。

CraftBench 填补了跨类型、跨条件评测的空白，让后续研究者有一个更公平的竞技场。

---

八、局限与不足

论文也提到了一些 honest 的局限：

批评器和精修器目前都是基于 prompt 的 LLM，不是专门训练过的视觉模型。某些视觉细节（如小字、微妙的箭头指向）可能还是会被错过
矢量转换对复杂纹理（渐变、阴影）的处理还有提升空间
计算成本不低：并行 K 个计划 + 最多 T 轮循环，比单次生成贵得多。作者提到 K 和 T 可以调节，但更好的方案可能是训练专用的小型批评模型
失败案例：某些复杂布局（如非网格对齐的拓扑图）仍会出现结构性错误，说明 harness 对极端复杂布局的驾驭能力还有上限

---

一句话总结

Crafter 的核心判断很简单：做科研图不是让模型"画得更好"，而是让模型"画得更有章法、改得更有的放矢"。它用结构化规范替代自由文本 prompt，用定向批评替代模糊打分，用并行探索替代盲目重试。这让它在生成质量和可编辑性上，都做到了现有方案做不到的事。

论文和代码： https://github.com/HaozheZhao/Crafter

#论文解读 #科研工具 #AI绘图 #多智能体 #学术写作 #计算机视觉

Crafter：科研图表的「生成-编辑」全流程，终于被打通了

Crafter：科研图表的「生成-编辑」全流程，终于被打通了

一、科研图为什么比风景图更难做？

二、Crafter 的思路：不换一个更强的引擎，而是套一个 harness

三、三个机制：为什么 Crafter 不是"多试几次"那么简单

机制一：并行探索，先选对框架

机制二：结构化修正，拒绝 prompt 堆积

机制三：定向批评，不是打分，而是开处方

四、CraftEditor：从"画完"到"能改"

五、CraftBench：终于有一个不"偏科"的评测基准

六、实验结果：Crafter 在每个维度都是最好的

七、为什么这篇论文值得关注

八、局限与不足

一句话总结

🌟 智谱 GLM-5 已上线