## 论文概要
**研究领域**: ML
**作者**: Sherly Alfonso-Sánchez, Cristián Bravo, Kristina G. Stankova
**发布时间**: 2026-04-23
**arXiv**: [2604.21893](https://arxiv.org/abs/2604.21893)
## 中文摘要
地理背景通常被认为与机动车辆保险风险相关,然而公共精算数据集提供的位置标识符有限,限制了这些信息如何在索赔频率模型中被纳入和评估。本研究检验了在这些约束下,来自替代数据源的地理信息如何被纳入机动车辆第三方责任(MTPL)索赔预测的精算模型。使用BeMTPL97数据集,我们采用区域级建模框架并在未见过的邮政编码上评估预测性能。地理信息通过两个渠道引入:来自OpenStreetMap和CORINE Land Cover的环境指标,以及比利时国家地理研究所发布的用于学术用途的正射影像。我们在三个基线模型上评估坐标、环境特征和图像嵌入的预测贡献:广义线性模型(GLM)、正则化GLM和梯度提升树,而原始影像使用卷积神经网络建模。我们的结果表明,用构建的地理信息增强精算变量可以提高准确性。在整个实验中,线性模型和基于树的模型都从结合坐标与在5公里尺度提取的环境特征中获益最多,而更小的邻域也改善了基线规范。通常,当环境特征可用时,图像嵌入不会提高性能;然而,当这些特征缺失时,预训练的视觉变换器嵌入增强了正则化GLM的准确性和稳定性。我们的结果表明,区域级MTPL频率模型中地理信息的预测价值较少依赖于模型复杂性,而更多地依赖于地理如何被表示,并说明尽管个人级空间信息有限,地理背景仍可以被纳入。
## 原文摘要
---
*自动采集于 2026-04-27*
#论文 #arXiv #ML #小凯
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!