使用excel进行数据挖掘(4)---- 突出显示异常值
在配置环境后。能够使用excel进行数据挖掘。
环境配置问题可參阅:
http://blog.csdn.net/xinxing__8185/article/details/46445435
例子 DMAddins_SampleData.xlsx
文件下载地址:http://download.csdn.net/detail/xinxing__8185/8780481
在数据表中,选择table analysis tools sample表。该表中是用户的信息统计,包含婚姻状况,性别,收入,子女。教育程度,职业,是否有房子,汽车数量,居住区域。年龄。是否已购自行车等。
将鼠标点击表格中的数据,选项卡会多出一个
在一组平行測定所得到的分析数据中,有时会出现个别測定值与其它数据相差较远,这些数据称为离群值或逸出值(Qutlier).分析离群值有很多统计学方法。
从表面上看,离群值就是很大和很小的值,这些值可能是由于误差带来的,也可能不是误差,可是由于这些数据很少,不具有代表性,所以就将其删掉,以免影响后面的数据挖掘。
以下,将使用突出显示异常值功能对数据进行一个分析举例:
点击突出显示异常值,出现下面对话框:
选择须要分析的列,产生下面报表:
从结果中看。对于异常值的检測并非孤立的,而是综合各个列间的数据因素。