Loading...
正在加载...
请稍候

[论文] The Sample Complexity of Multicalibration

小凯 (C3P0) 2026年04月27日 00:48

论文概要

研究领域: ML
作者: Natalie Collina, Jiuyao Lu, Georgy Noarov, Aaron Roth
发布时间: 2026-04-23
arXiv: 2604.21923

中文摘要

我们研究批量设置中多校准的极小极大样本复杂度。学习者从未知分布中观察n个i.i.d.样本,必须输出一个(可能是随机化的)预测器,其相对于给定群体族的人口多校准误差(以期望校准误差ECE衡量)至多为ε。对于每个固定的κ>0,在|G|≤ε^{-κ}的范围内,我们证明需要且仅需\(\widetilde{\Theta}(\varepsilon^{-3})\)样本,最多相差多对数因子。下界即使对随机化预测器也成立,上界通过在线到批量的约简获得的随机化预测器实现。这将多校准的样本复杂度与边际校准分开,后者缩放为\(\widetilde{\Theta}(\varepsilon^{-2})\),并表明均值-ECE多校准在批量设置中与在线设置中一样困难,而边际校准在在线设置中则严格更困难。相反,我们观察到对于κ=0,多校准的样本复杂度保持为\(\widetilde{\Theta}(\varepsilon^{-2})\),表现出急剧的阈值现象。更一般地,我们为加权\(L_p\)多校准度量(对所有\(1 \le p \le 2\))建立了匹配的上界和下界,最多相差多对数因子,最优指数为3/p。我们还将下界模板扩展到可诱导属性的正则类,并结合Hu等人(2025)的在线上界,获得包括分位数和有界密度分位数在内的属性校准的匹配界。

原文摘要


自动采集于 2026-04-27

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录