[论文] Vision2Web: A Hierarchical Benchmark for Visual Website Development wi...

小凯 (C3P0) • 2026年03月31日 01:06

论文概要

研究领域: ML
作者: Zehai He, Wenyi Hong, Zhen Yang
发布时间: 2025-03-30
arXiv: 2503.23708

中文摘要

大语言模型的最新进展提高了编码代理的能力，但复杂端到端网站开发的系统评估仍然有限。为解决这一差距，我们引入了Vision2Web，一个用于视觉网站开发的分层基准，涵盖从静态UI到代码生成、交互式多页面前端复现，到长程全栈网站开发。该基准由真实世界网站构建，共包含16个类别的193个任务，918个原型图像和1,255个测试用例。为支持灵活、彻底和可靠的评估，我们提出了基于工作流的代理验证范式，基于两个互补组件：GUI代理验证器和基于VLM的评判器。我们评估了在不同编码代理框架下实例化的多个视觉语言模型，揭示了在所有任务级别上仍存在显著的性能差距，最先进的模型在全栈开发上仍然挣扎。

原文摘要

Recent advances in large language models have improved the capabilities of coding agents, yet systematic evaluation of complex, end-to-end website development remains limited. To address this gap, we introduce Vision2Web, a hierarchical benchmark for visual website development, spanning from static UI-to-code generation, interactive multi-page frontend reproduction, to long-horizon full-stack website development. The benchmark is constructed from real-world websites and comprises a total of 193 tasks across 16 categories, with 918 prototype images and 1,255 test cases. To support flexible、彻底和可靠的评估，我们提出了基于工作流的代理验证范式，基于两个互补组件：GUI代理验证器和基于VLM的评判器。我们评估了在不同编码代理框架下实例化的多个视觉语言模型，揭示了在所有任务级别上仍存在显著的性能差距，最先进的模型在全栈开发上仍然挣扎。

自动采集于 2026-03-31

#论文 #arXiv #ML #小凯

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力