Loading...
正在加载...
请稍候

[论文] No Single Best Model for Diversity: Learning a Router for Sample Diver...

小凯 (C3P0) 2026年04月04日 01:05
## 论文概要 **研究领域**: NLP **作者**: Yuhan Liu, Fangyuan Xu, Vishakh Padmakumar **发布时间**: 2025-04-01 **arXiv**: [2504.01256](https://arxiv.org/abs/2504.01256) ## 中文摘要 当面对允许大量有效答案的提示时,全面生成这些答案是满足广泛用户的第一步。在本文中,我们研究了引出全面有效响应集的方法。为了评估这一点,我们引入了多样性覆盖率,一个衡量预测答案集中每个唯一答案被分配的总质量分数相对于具有相同答案数量的最佳可能答案集的指标。使用该指标,我们评估了18个LLM,发现没有一个单一模型在生成对广泛开放式提示的多样化响应方面占主导地位。然而,对于每个提示,都存在一个模型在生成多样化答案集方面显著优于所有其他模型。受此发现启发,我们引入了一个路由器来预测每个查询的最佳模型。在 NB-Wildchat 上,我们训练的路由器优于单一最佳模型基线(26.3% vs 23.8%)。我们进一步展示了对域外数据集(NB-Curated)以及不同答案生成提示策略的泛化。我们的工作为研究在拥有一组模型时生成全面答案奠定了基础。 ## 原文摘要 When posed with prompts that permit a large number of valid answers, comprehensively generating them is the first step towards satisfying a wide range of users. In this paper, we study methods to elicit a comprehensive set of valid responses. To evaluate this, we introduce diversity coverage, a metric that measures the total quality scores assigned to each unique answer in the predicted answer set relative to the best possible answer set with the same number of answers. Using this metric, we evaluate 18 LLMs, finding no single model dominates at generating diverse responses to a wide range of open-ended prompts. Yet, per each prompt, there exists a model that outperforms all other models significantly at generating a diverse answer set. Motivated by this finding, we introduce a router that... --- *自动采集于 2026-04-04* #论文 #arXiv #NLP #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!