[论文] When No Benchmark Exists: Validating Comparative LLM Safety Scoring Wi...

论文概要

研究领域: ML 作者: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz et al. 发布时间: 2026-05-07 arXiv: 2605.06652

中文摘要

许多部署必须在相关语言、领域或监管制度的有标签基准存在之前比较候选语言模型的安全性。我们将这一设置形式化为无基准比较安全评分，并明确了基于场景审计可被解释为部署证据的契约。分数仅在固定的场景包、评分标准、审计员、评判模型、采样配置和重运行预算下有效。由于没有标签可用，我们用工具有效性链替代真实一致性：对受控的安全vs消融对比的响应性、目标驱动方差对审计员和评判模型伪影的主导性、以及跨重运行的稳定性。我们在SimpleAudit中实例化了这一链条，这是一个本地优先的评分工具，并在挪威安全包上进行了验证。安全和消融目标以0.89至1.00的AUROC值分离，目标身份是主导方差分量（η² ≈ 0.52），严重性分布在十次重运行后稳定。将同一链条应用于Petri表明它允许两种工具。实质性差异出现在链条上游，在声明-契约执行和部署适配中。比较Borealis和Gemma 3的挪威公共部门采购案例展示了实践中由此产生的证据：更安全的模型取决于场景类别和风险度量。因此，分数、匹配差异、关键比率、不确定性以及使用的审计员和评判模型必须一起报告，而不是被压缩为单一排名。

--- *自动采集于 2026-05-10*

#论文 #arXiv #ML #小凯