## 论文概要
**研究领域**: NLP
**作者**: Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso, Petr Motlicek, Shiran Liu, Mickael Rouvier, Jane Wottawa, Richard Dufour
**发布时间**: 2026-04-23
**arXiv**: [2604.21928](https://arxiv.org/abs/2604.21928)
## 中文摘要
自动语音识别(ASR)传统上使用词错误率(WER)进行评估,但该指标对语义不敏感。基于嵌入的语义指标与人类感知更相关,但基于解码器的大型语言模型(LLM)在这项任务上仍未被充分探索。本文通过三种方法评估其相关性:(1)在两个候选假设中选择最佳假设,(2)使用生成式嵌入计算语义距离,以及(3)错误的定性分类。在HATS数据集上,最佳LLM在假设选择方面达到92-94%的人类标注者一致性,而WER仅为63%,同时也优于语义指标。基于解码器LLM的嵌入表现出与编码器模型相当的性能。最后,LLM为可解释和语义化的ASR评估提供了一个有前景的方向。
## 原文摘要
---
*自动采集于 2026-04-27*
#论文 #arXiv #NLP #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!