为什么要处理缺失值
这一段完全是废话了。含有缺失数据的样本,你要么删了,要了就填充上什么值。删了就会损失一部分的样本信息,填充要是填充的不合适,会给样本增加噪音。
所以这就是一个选择的问题:
- 选择删除还是填充;
- 选择填充方式
处理缺失值的8种方法
这里先说一下,我总结了自己在竞赛中的操作,以及一些大佬的处理方法,建议处理缺失值的方法是:
- 先尝试删除有缺失项的数据,然后训练模型,先把baseline做出来;
- 然后会依次尝试:特殊值填充,(特殊)平均值填充和最近邻法。
1. 不处理
-
补齐处理只是将未知值补以我们的主观估计值,不一定完全符合客观事实,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的信息系统。
-
对空值不正确的填充往往将新的噪声引入数据中,使挖掘任务产生错误的结果。因此,在许多情况下,我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。
但是训练模型的时候,可能不处理并不能进行。所以一般不会选择不处理。
2. 特殊值填充
这个是认为数据的空值也是具有一定的信息的,它之所以为空,是因为它不同于其他的任何数据。所以将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。
3. 平均值填充
- 如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值
- 如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。
比方说,一个样本的特征a缺失了,那么a就填充上所有样本的特征a的平均值。
此外有一种叫做条件平均值填充的方法,是只考虑和缺失样本具有相同特征的样本的平均值。比方说某一个样本的特征a缺失了,用和这个样本的特征b相同的所有样本的特征a的平均值来填充这个缺失值。(因为这些样本和缺失数据的样本具有相同的特征,所有认为他们会更为相似)。
4. 热卡填充
对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。
【优缺点】
- 优点:该方法概念上很简单,且利用了数据间的关系来进行空值估计
- 缺点:在于难以定义相似标准,主观因素较多。
5. 最近邻法
先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
这个方法与热卡填充有些相似,如果最近邻法仅仅考虑最近的一个样本,那么就会退化成热卡填充。不过最近邻法和热卡填充面临同样的问题,如何衡量相似度。
6. 使用所有可能的值填充
用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。
但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。
7. 模型预测
基于完整的数据集,建立预测模型。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。
其实就是假设特征之间也存在一定的关系,可以通过预测来得到缺失值。但是我个人不建议使用这个方法,因为有些麻烦,而且不确定这样得到的填充值的效果。又可能出现模型过拟合等新问题。
8. 多重插补
这个我看大数据竞赛中,并没有大神做这个填充缺失项的。一般对于小数据会使用这个方法,因为多重插补会反复训练模型,然后评价模型的效果。因此需要大量的时间。
9. 人工填写
在大数据中,个人不太推荐。。。