在数据分析中,我们会在数据中会发现一些异常值,他们的值很大或者很小,很不正常,会影响我们对数据的分析。看下面的一个例子。
这里是对变量-降水量和变量-pm2.5的值做的散点图分析,但是可以看到有一个点在1000000附近,根据生活常识来说,这显然是不正常的。没有这么高的降水量,而且它是一个孤立的点。说明它是一个异常值。异常值的产生,有多种原因,可能是设备的问题。也可能是传感器的问题。这里不做讨论。一般我们对异常值的处理方法,大概有两种,一种是直接删除,异常值数据较少,对我们的庞大的数据来说微不足道,对分析结果没有影响。还有一种情况是异常值较多,会影响到分析结果。这个时候要采用适当的模型去把异常值转化为近似正常值的结果。下面是一个删除异常值的例子。
通过命令删除掉异常值的数据,我们可以发现,散点图变得正常了。