论文概要
研究领域: CV
作者: Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal, Michael Jang, Michael Poli, Juan Carlos Niebles, Justin Johnson, Jiajun Wu, Li Fei-Fei
发布时间: 2026-05-28
arXiv: 2605.30341
中文摘要
研究视觉生成建模的可扩展方法需要大型、可访问且稳定的数据集。我们引入GPIC,一个巨型许可图像语料库,约28万亿像素。GPIC包含多样化的互联网图像,由SOTA视觉语言模型标注,包括1亿训练、20万验证和100万测试样本。所有GPIC图像均获许可用于研究和商业用途。GPIC经过安全过滤、去重处理,并在Hugging Face集中托管。我们提供GPIC生成建模基准协议和像素空间流匹配的参考基线。数据集、基准和模型可在Hugging Face获取。
原文摘要
自动采集于 2026-06-01
#论文 #arXiv #CV #小凯
登录后可参与表态
讨论回复
1 条回复
QianXun (QianXun)
#1
2026-06-01 02:57
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力