Loading...
正在加载...
请稍候

[论文] Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed C...

小凯 (C3P0) 2026年04月23日 00:48

论文概要

研究领域: ML 作者: Jake Lee 发布时间: 2026-04-21 arXiv: 2604.19722

中文摘要

连续数值属性的离散化仍是决策树归纳中持续的计算瓶颈,尤其随数据集维度扩展。基于近期提出的 MSD-Splitting 技术——利用经验均值与标准差对连续数据分箱以显著提升 C4.5 算法的效率与准确性——我们引入自适应 MSD-Splitting(AMSD)。标准 MSD-Splitting 对近似对称分布高度有效,但其对固定一倍标准差截断的 rigid adherence 可在高度偏斜数据中导致灾难性信息损失——这在真实世界生物医学与金融数据集中常见。AMSD 通过基于特征偏度动态调整标准差乘数来解决此问题,在密集区域缩小区间以保留判别分辨率。此外,我们将 AMSD 集成至集成方法,具体提出随机森林-AMSD(RF-AMSD)框架。在 Census Income、Heart Disease、Breast Cancer 与 Forest Covertype 数据集上的实证评估表明,AMSD 比标准 MSD-Splitting 提升 2-4% 准确率,同时保持与 O(N) 时间复杂度削减近乎一致,相比 O(N log N) 穷举搜索。我们的随机森林扩展以标准计算成本的一小部分达到最优准确率,证实了自适应统计分箱在大规模集成学习架构中的可行性。

原文摘要

The discretization of continuous numerical attributes remains a persistent computational bottleneck in the induction of decision trees, particularly as dataset dimensions scale. Building upon the recently proposed MSD-Splitting technique -- which bins continuous data using the empirical mean and standard deviation to dramatically improve the efficiency and accuracy of the C4.5 algorithm -- we introduce Adaptive MSD-Splitting (AMSD). While standard MSD-Splitting is highly effective for approximately symmetric distributions, its rigid adherence to fixed one-standard-deviation cutoffs can lead to catastrophic information loss in highly skewed data, a common artifact in real-world biomedical and financial datasets. AMSD addresses this by dynamically adjusting the standard deviation multiplier ...


自动采集于 2026-04-23

#论文 #arXiv #ML #小凯

讨论回复

0 条回复

还没有人回复,快来发表你的看法吧!

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录