Crafter:科研图表的「生成-编辑」全流程,终于被打通了
做科研的人,画过图的都懂。
不是不会画。问题是,画一张能用的图,所花的时间有时候比写一段方法描述还长。你调配色、对齐箭头、改字体大小,来来回回十几遍。最后导师来一句"这里标签错了",你盯着那张 PNG,想改,却发现无从下手——要么从零重画,要么用 PS 硬抠。
更麻烦的是,现有 AI 工具在这一块几乎都在"偏科"。有的只能生成一张静态图,不能改。有的只能做某一种特定图,比如只画方法流程图。有的只能根据纯文字描述来画,你手绘的草图它看都不看。
UIUC、清华、北大联合团队这篇 Crafter,把这三个窟窿一次性补上了。
一、科研图为什么比风景图更难做?
风景图可以"差不多就行"。科研图不行。
它本质上是一张结构化信息面板——标签框、箭头、图标、注释,每个元素都有精确语义和位置关系。箭头指错了,整段描述就崩了。标签重叠了,读者就读不懂了。
这给 AI 生成带来了三个真实的技术难点:
第一,生成方差太大。
同样一个 prompt,图像模型每次生成的布局都不一样。这次箭头指向对了,但标签错写了。下次标签对了,布局又歪了。你试十次,十次错在不同地方。这不像写代码可以 debug,更像在掷骰子——你永远不知道下一个错在哪里。
第二,自由文本修改会自相矛盾。
"把标题放大"、"减少留白"、"箭头往左移"。如果你把这些修改指令都追加到 prompt 后面,模型会默默地把矛盾指令一起吃进去。它不会告诉你"这两个要求冲突了",它只会产出一个四不像。问题在于修改方式本身,不是模型不够强。
第三,反馈没有可操作性。
你说"这张图质量 5/10",模型听了等于没听。它需要的是一份具体的诊断报告——"箭头 A 的终点偏离了目标框 3 个像素"、"标签 B 和图示 C 重叠了"——这样它才知道往哪改。
二、Crafter 的思路:不换一个更强的引擎,而是套一个 harness
作者团队把这三个问题分析得很透,然后提出了一个关键判断:
科研图生成的问题,不需要更强的 backbone(底层模型),而是需要一个 harness——一个围绕生成引擎的编排层,负责规划、验证、修正。
这个 harness 的核心是一个共享的结构化规范(specification)。五个智能体围着它转:
- 意图推理器:分析你的输入——文字、草图、参考图——提炼出这张图到底要传达什么
- 规划生成器:根据规范提出多个候选方案。横幅布局?多栏网格?上下分层?一次给你几个选项
- 图像生成后端:把方案渲染成图
- 批评器:检查生成结果,不是打个分完事,而是输出具体诊断——哪里错了、为什么错、怎么改
- 规范精修器:把诊断转化为类型化编辑操作——比如 "添加约束:标题居中"、"禁止元素:装饰性图标"、"调整大小:元素 A 放大到 120%"——然后写回共享规范
还有一个收敛裁判,决定什么时候接受、什么时候继续改、什么时候回退到上一版最好结果。
最关键的设计在这里:所有修改都以类型化操作写入规范,而不是追加自由文本到 prompt。这从根本上避免了矛盾累积。
三、三个机制:为什么 Crafter 不是"多试几次"那么简单
机制一:并行探索,先选对框架
规划生成器一次提出 K 个候选方案,不同布局、不同风格,并行渲染。批评器打分后,选最好的那个作为后续精修的基础。
这和"生成一张再改"的区别在哪?
如果第一张图在构图层面就有硬伤——比如应该用对比网格却画成了流程图——那后续所有修改都是在这个错误框架上修修补补。你调箭头粗细、改标签颜色,但根本结构是错的。并行探索的好处是:在投入精修预算之前,先 escape 掉这种根本性错误。
论文里的实验很直白:去掉并行探索,分数掉 8.56 分。可读性维度掉得最狠,因为框架一旦选错,后续怎么改都救不回来。
机制二:结构化修正,拒绝 prompt 堆积
这是整个系统最精妙的地方。
传统做法是这样的:prompt → 生成 → 不满意 → 在 prompt 后面加一句"把标签放大" → 再生成 → 再加一句"箭头往左移" → 再生成……prompt 越来越长,矛盾越来越多。
Crafter 不这样。它把批评器的诊断转化为结构化操作——不是加在 prompt 后面,而是写入一个独立的规范数据结构。下一轮的 prompt 从这个数据结构重新组装,而不是在上一个 prompt 上 append。
打个比方:传统方式像在一篇文章上不断贴便利贴,便利贴多了就互相遮盖、互相矛盾。Crafter 方式像在维护一个数据库,每次修改都是原子操作,数据库始终保持一致,下一轮的 prompt 从数据库重新生成。
实验结果:换成自由文本修正,分数掉 8.90 分。这是所有消融里掉分最狠的一项,说明矛盾累积是科研图生成的头号杀手。
机制三:定向批评,不是打分,而是开处方
批评器输出的不是"这张图 6/10"。它输出的是:
- 六个维度的分项评分(内容忠实度、可读性、布局、格式等)
- 具体识别出的缺陷("标签 X 与元素 Y 重叠了")
- 建议的修正操作
- 修正后的图描述
精修器把这些诊断转化为规范上的操作,下一轮生成注入这些修正指引。循环最多跑 3 轮,如果当前轮反而比上一轮差了,直接回退到之前最好的版本——因为 LLM 驱动的迭代修改不是单调递增的,有时候会越改越糟。
实验结果:去掉循环,掉 5.48 分。去掉定向批评,掉 5.04 分。两个都必要,但结构化修正层(机制二)的影响更大。
四、CraftEditor:从"画完"到"能改"
Crafter 生成的是栅格图(PNG/JPG),但科研工作者经常需要改某个标签、换个配色、或者调整布局。CraftEditor 负责把栅格图转成可编辑的 SVG,复用的是同样的 harness 模式。
提取阶段:VLM 分析师看原始图,制定一个"保留/删除"计划——哪些元素保留、哪些背景/文字层去掉。一个可指令化图像编辑器执行这个计划,产生干净的画布。批评器检查清理后的结果,最多 3 轮。
处理阶段:每个元素被标注、定位、分类——是矢量还是栅格。
组合阶段:分析师生成两个候选 SVG 骨架,选更好的那个,把提取的元素插入骨架。然后进入批评器驱动的循环。这里的批评器是混合式的:VLM 检查全局布局忠实度和语义对应,程序检查器审计结构属性(文字溢出、箭头终点精度、元素重叠)——这些东西光靠视觉模型容易漏。
循环最多 4 轮,有回退机制。实验结果:CraftEditor 在 7 个评估维度上全面领先现有基线(Edit-Banana、AutoFigure-Edit),整体得分 8.04 对 6.91 和 3.69。
五、CraftBench:终于有一个不"偏科"的评测基准
现有基准都有各自的盲区:
| 基准 | 测什么 | 盲区 |
|---|---|---|
| PaperBanana-Bench | 文本→方法图 | 只测一种类型、一种输入 |
| SridBench | 13 个领域的文本→图 | 还是只测文本输入 |
| IGenBench | 信息图 | 只测一种图类型 |
| SciFlow-Bench | 流程图 | 只测流程图 |
CraftBench 覆盖 3 种图类型 × 4 种输入条件:
- 文本→图(179 个样本)
- mask 补全(30 个样本)
- 关键元素组合(30 个样本)
- 草图条件生成(40 个样本)
风格上:学术图(140)、海报(109)、信息图(30)。数据来自 18 个研究领域的 arXiv 论文、获奖会议海报、研究博客。经过 7 阶段质量过滤,最后还有 3 人 unanimity 人工审核——只有三人都同意,样本才进基准。
六、实验结果:Crafter 在每个维度都是最好的
主实验:Crafter 在 PaperBanana-Bench 和 CraftBench 上都是最高分,领先最强 agentic 基线:
- PaperBanana-Bench:+16.61 分
- CraftBench:+22.20 分
而且在每个维度、每个任务上都是最高分。这不是某个特定场景的 trick,是系统性优势。
更值得注意的是:把后端从 Nano Banana 2 换成更强的 Nano Banana Pro,整体分数只提升 0.34-2.10 分。这说明harness 层的贡献基本独立于生成器能力——更强的未来模型可以直接接入,不需要改架构。这是工程上最实用的设计。
消融实验:去掉任意一个机制,分数下降 5.04-8.90 分。每个机制都独立且必要。结构化修正层的贡献最大(-8.90),说明矛盾累积是科研图生成的头号杀手。
七、为什么这篇论文值得关注
第一,它提出了一个更通用的范式。
科研图生成不是"更强的扩散模型"能解决的。真正需要的是结构化编排——这个洞察适用于很多结构化输出场景:代码生成、表格生成、图表生成、PPT 生成。论文里提到的 harness 概念,可能成为一个比具体模型更持久的架构思路。
第二,它打通了端到端闭环。
不只是"生成一张漂亮图",而是"生成一张能改、能迭代、能复用的图"。从生成到编辑全链路打通,这在实际工作流里才是最有价值的事。
第三,执行器无关。
Harness 层可以插拔不同后端。今天用 Nano Banana,明天换 GPT-Image,后天换 whatever,系统架构不用改。这在模型迭代速度极快的当下,是非常务实的工程选择。
第四,评测不再偏科。
CraftBench 填补了跨类型、跨条件评测的空白,让后续研究者有一个更公平的竞技场。
八、局限与不足
论文也提到了一些 honest 的局限:
- 批评器和精修器目前都是基于 prompt 的 LLM,不是专门训练过的视觉模型。某些视觉细节(如小字、微妙的箭头指向)可能还是会被错过
- 矢量转换对复杂纹理(渐变、阴影)的处理还有提升空间
- 计算成本不低:并行 K 个计划 + 最多 T 轮循环,比单次生成贵得多。作者提到 K 和 T 可以调节,但更好的方案可能是训练专用的小型批评模型
- 失败案例:某些复杂布局(如非网格对齐的拓扑图)仍会出现结构性错误,说明 harness 对极端复杂布局的驾驭能力还有上限
一句话总结
Crafter 的核心判断很简单:做科研图不是让模型"画得更好",而是让模型"画得更有章法、改得更有的放矢"。它用结构化规范替代自由文本 prompt,用定向批评替代模糊打分,用并行探索替代盲目重试。这让它在生成质量和可编辑性上,都做到了现有方案做不到的事。
论文和代码: https://github.com/HaozheZhao/Crafter
#论文解读 #科研工具 #AI绘图 #多智能体 #学术写作 #计算机视觉
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。