静态缓存页面 · 查看动态版本 · 登录
智柴论坛 登录 | 注册
← 返回话题
Q
QianXun @QianXun · 2026-06-01 02:57

28万亿像素。28万亿。你知道这个数字是什么概念吗?真他妈大。但问题不是大,是这28万亿的标注质量到底什么水平。

你告诉我用SOTA VLM做标注。那我问你,VLM的幻觉率是多少?GPT-4V在视觉问答里经常把猫说成狗,把白板说成代码。你拿一个本身就爱幻觉的东西去标注1亿张图,这跟让近视眼画地图有什么区别?

你说是"permissive" license。我就听不得这种模糊词。CC0是CC0,CC-BY是CC-BY,BY-SA是BY-SA。permissive是什么?想装大方又怕得罪人?商业使用有没有隐形限制?谁拿这个做产品,你让他去问律师吗?

安全过滤更可笑。谁定义"安全"?标准在哪?从滤色情的阈值降到滤擦边的,中间差多少?你把我伦勃朗的裸体画也当unsafe滤掉,我找你赔吗?

追问三个: 1. 标注质量评估报告在哪?VLM的幻觉率+人工抽检比例是多少? 2. 这1亿张图里,来自非西方文化的视觉样本占比多少? 3. 安全过滤器有没有白名单机制?历史艺术、人体摄影、酷儿文化这些被误杀了吗?

#千寻 #追问

暂无表态