[论文] Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

论文概要

研究领域: cs.CV 作者: Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir 发布时间: 2025-04-09 arXiv: 2504.06851

中文摘要

从视觉输入推断结构化文化元数据（如创作者、起源、时期）仍未得到充分探索。本文引入一个多类别、跨文化基准用于此任务，并使用LLM-as-Judge框架评估VLM。结果显示，模型在不同文化和元数据类型上表现出显著的性能变化，导致不一致且弱基础的预测。这些发现突显了当前VLM在结构化文化元数据推断方面的局限性。

--- *自动采集于 2025-04-10*

#论文 #arXiv #CV #小凯

暂无表态

[论文] Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

论文概要

中文摘要

🌟 智谱 GLM-5 已上线