处理机器学习中不平衡类的5种策略

类失衡:假设您有一个罕见的疾病机器学习数据集,即大约8%的阳性。在这种情况下,即使你不训练,只是简单地说没有生病,这也会给出92%的准确率。因此,在类不平衡的情况下,准确性是不准确的。
在本指南中,我们介绍了处理机器学习中不平衡类的5种策略:

对少数类进行上采样
对多数类进行下采样
更改性能指标
惩罚算法
使用基于树的算法

1.上采样少数类:指随机复制少数类的观察结果,使样本数量与多数类匹