PS:做过一个天文图像的分类项目(分三类,数量量级差别大),里面存在严重的分类不平衡问题,查阅后,类别不平衡主要有以下几个方式处理。
1)采样:
采样法常分为上采样和下采样:上采样是通过把少量数据类别的数据重复复制抽取的方法使各类别的数据比例维持在合理的比例,但是这样做很容易造成过拟合。下采样是通过从多数数据类中筛选出部分数据使各个类别的数据维持在合理的比例中,但是这样的方法容易丢失关键数据,在数据量差别特别悬殊的情况下不宜采用。
2)加权:
加权法是通过对不同类别分类错误的目标添加不同权重的代价,即惩罚函数,使得不同类别的加权损失值近似,这样模型才能更好的拟合数据集。但是惩罚函数的设计和选择会影响数据集合本身的独立同分布的假设,这违背了使用深度学习的初衷。
3)数据增强:
数据增强就是利用已有数据进行翻转、平移、旋转等来创造出更多的数据,使得神经网络具有更好的泛化效果,这样做既可以增加训练的数据量,提高模型的泛化能力,也可以增加噪声数据,提升模型的鲁棒性。采用旋转来增强数据集,如果不会破坏数据本身的特征,这样操作可以增加数据多样性,使神经网络能够学习到样本的旋转不变性,针对同一类型的数据即使旋转不同的角度,也可以识别出它所属于的类别。