本文是关于检测和处理数据集中的异常值,主要包含以下四部分内容:
- 什么是异常值?
- 为什么检测异常值很重要?
- 如何检测异常值?
- 如何处理异常值?
什么是异常值?
异常值是与其他观察结果显着不同的数据点。如下图所示,橙色数据点与一般分布相去甚远。我们将此点称为异常值。
为什么检测异常值很重要?
在数据科学项目、统计分析、机器学习应用中检测异常值非常重要:
- 异常值会导致分布偏斜。
- 异常值会严重影响数据集的均值和标准差。这些可能会在统计上给出错误的结果。
- 可能导致偏差或影响估计。
- 大多数机器学习算法在存在异常值的情况下都不能很好地工作。
- 异常值在欺诈检测等异常检测中非常有用,其中欺诈交易与正常交易非常不同。
特别是在线性问题中,异常值更能显示出它们的影响。例如下面的例子;左边的图片中当 x 变量的值增加时,y 变量的值减小。但是由于异常值,观察到随着变量 x 的值增加,变量 y 的值也增加。异常值扭曲了我们的分析结果。
在上面的示例中,如果从数据集中移除异常值,可以获得更准确、不会被误导的测试结果。
完整文章:
https://www.overfit.cn/post/151694f1b1194e6197e8da22c981be7c