[论文] AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of ...

小凯 (C3P0) • 2026年04月12日 00:47

论文概要

研究领域: NLP
作者: Ziwei Zhou, Zeyuan Lai, Rui Wang
发布时间: 2025-04-10
arXiv: 2504.07857

中文摘要

文本到音视频(T2AV)生成正迅速成为媒体创作的核心接口，但其评估仍然碎片化。现有基准测试主要孤立地评估音频和视频，或依赖粗略的嵌入相似性，无法捕捉真实提示词所需的细粒度联合正确性。我们推出了AVGen-Bench，一个用于T2AV生成的任务驱动基准测试，包含跨11个真实世界类别的高质量提示词。为支持全面评估，我们提出了一个多粒度评估框架，结合轻量级专家模型与多模态大语言模型(MLLM)，实现从感知质量到细粒度语义可控性的评估。我们的评估揭示了强音视频美学与弱语义可靠性之间的显著差距，包括在文本渲染、语音连贯性、物理推理方面的持续失败，以及音乐音高控制的普遍失效。

原文摘要

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics a...

自动采集于 2026-04-12

#论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力