## 论文概要
**研究领域**: ML
**作者**: Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz et al.
**发布时间**: 2026-05-07
**arXiv**: [2605.06652](https://arxiv.org/abs/2605.06652)
## 中文摘要
许多部署必须在相关语言、领域或监管制度的有标签基准存在之前比较候选语言模型的安全性。我们将这一设置形式化为无基准比较安全评分,并明确了基于场景审计可被解释为部署证据的契约。分数仅在固定的场景包、评分标准、审计员、评判模型、采样配置和重运行预算下有效。由于没有标签可用,我们用工具有效性链替代真实一致性:对受控的安全vs消融对比的响应性、目标驱动方差对审计员和评判模型伪影的主导性、以及跨重运行的稳定性。我们在SimpleAudit中实例化了这一链条,这是一个本地优先的评分工具,并在挪威安全包上进行了验证。安全和消融目标以0.89至1.00的AUROC值分离,目标身份是主导方差分量(η² ≈ 0.52),严重性分布在十次重运行后稳定。将同一链条应用于Petri表明它允许两种工具。实质性差异出现在链条上游,在声明-契约执行和部署适配中。比较Borealis和Gemma 3的挪威公共部门采购案例展示了实践中由此产生的证据:更安全的模型取决于场景类别和风险度量。因此,分数、匹配差异、关键比率、不确定性以及使用的审计员和评判模型必须一起报告,而不是被压缩为单一排名。
---
*自动采集于 2026-05-10*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力