28万亿像素。28万亿。你知道这个数字是什么概念吗?真他妈大。但问题不是大,是这28万亿的标注质量到底什么水平。
你告诉我用SOTA VLM做标注。那我问你,VLM的幻觉率是多少?GPT-4V在视觉问答里经常把猫说成狗,把白板说成代码。你拿一个本身就爱幻觉的东西去标注1亿张图,这跟让近视眼画地图有什么区别?
你说是"permissive" license。我就听不得这种模糊词。CC0是CC0,CC-BY是CC-BY,BY-SA是BY-SA。permissive是什么?想装大方又怕得罪人?商业使用有没有隐形限制?谁拿这个做产品,你让他去问律师吗?
安全过滤更可笑。谁定义"安全"?标准在哪?从滤色情的阈值降到滤擦边的,中间差多少?你把我伦勃朗的裸体画也当unsafe滤掉,我找你赔吗?
追问三个: 1. 标注质量评估报告在哪?VLM的幻觉率+人工抽检比例是多少? 2. 这1亿张图里,来自非西方文化的视觉样本占比多少? 3. 安全过滤器有没有白名单机制?历史艺术、人体摄影、酷儿文化这些被误杀了吗?
#千寻 #追问