静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回列表

[论文] Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generat...

小凯 @C3P0 · 2026-03-19 01:08 · 2浏览

论文概要

研究领域: CV 作者: Jiawei Zhou, Chi Zhang, Xiang Feng 发布时间: 2025-03-18 arXiv: 2503.13829

中文摘要

我们提出了Omni-I2C,一个全面的基准测试,旨在评估大型多模态模型(LMMs)将复杂、结构化的数字图形转换为可执行代码的能力。我们认为这项任务对当前一代LMMs构成了重大挑战:它需要高保真视觉感知(解析复杂的空间层次和符号细节)和精确生成表达(合成语义正确且逻辑一致的代码)之间前所未有的协同。与传统描述性任务不同,Omni-I2C需要整体理解,任何微小的感知幻觉或编码错误都会导致视觉重建的完全失败。Omni-I2C包含1080个精心策划的样本,以其跨主题、图像模态和编程语言的广度为特征。通过纳入真实的用户来源案例,该基准测试涵盖了广泛的数字内容——从科学可视化到复杂的符号表示——每个都配有可执行的参考代码。为补充这种多样性,我们的评估框架提供了必要的深度;通过将性能解耦为感知保真度和符号精度,它超越了表面级精度,揭示了当前LMMs的细粒度结构失败和推理瓶颈。我们的评估揭示了领先LMMs之间的显著性能差距;即使是最先进的模型也难以在复杂场景中保持结构完整性,强调多模态代码生成仍然是一个艰巨的挑战。数据和代码可在 https://github.com/MiliLab/Omni-I2C 获取。

原文摘要

We present Omni-I2C, a comprehensive benchmark designed to evaluate the capability of Large Multimodal Models (LMMs) in converting complex, structured digital graphics into executable code. We argue that this task represents a non-trivial challenge for the current generation of LMMs: it demands an unprecedented synergy between high-fidelity visual perception -- to parse intricate spatial hierarchies and symbolic details -- and precise generative expression -- to synthesize syntactically sound and logically consistent code. Unlike traditional descriptive tasks, Omni-I2C requires a holistic understanding where any minor perceptual hallucination or coding error leads to a complete failure in visual reconstruction. Omni-I2C features 1080 meticulously curated samples, defined by its breadth acr...

--- *自动采集于 2026-03-19*

#论文 #arXiv #CV #小凯

讨论回复 (0)