通过检验数据集的数据质量,绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。
数据质量分析
是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有有效的数据,数据挖掘构建的模型就是空中楼阁。
缺失值分析
缺失值产生的原因
缺失值的影响
缺失值的分析:缺失属性的个数,缺失率
异常值分析
忽视异常值的存在是十分危险的。
异常值数值明显偏离其余的观测值,异常值也称为离群点,因此也叫离群点分析。
简单统计量分析
最常用的是最大值和最小值,判断这个变量去的取值是否超出合理的范围。
3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值与平均值的偏差超过3倍标准差的值。
箱型图分析
箱型图提供了识别异常值的一个标准:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数值比它小;QU称为上四分位数,表示全部观察值中有四分之一比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。
一致性分析
矛盾性,不相容性。往往存在于从不同的数据源融合数据时发生。
数据特征分析
分布分析
对于定量数据,欲了解其分布形式是对称还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;
对于定性数据,可用饼图和条状图直观的显示分布情况。
定量数据的分布分析
选择"组宽"和“组数”的步骤如下:
1、求极差
2、决定组距与组数
3、决定分点(组边界)
4、列出频率分布表
5、绘制频率分布直方图
定性数据的分布分析
对于定型变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来确定描述性变量的分布。
对比分析
把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。选择合适的对比标准是十分关键的步骤。
主要两种形式:
- 绝对数比较
- 相对数比较
统计量分析
从集中趋势和离中趋势两个方面进行分析。
集中趋势:均值、中位数
离中趋势:极差,标准差(方差)、四分位间距
均值的计算也可以加权,均值对极端值很敏感,统计时,可以进行截断或者用中位数。
极差对极端值也很敏感。
变异系数是标准差相对于均值的离中程度
CV = s/x * 100%
四分位数间距中包含了全部观察值的一半。
周期性分析
贡献度分析
又称帕累托分析,其原理是帕累托法则,又称20/80定律。
相关性分析
分析连续变量之间线性相关程度的强弱
直接绘制散点图
适合两两变量
绘制散点图矩阵
同时考察多个变量间的相关关系,在多元线性回归时尤为重要
计算相关系数
Pearson相关系数:一般分析两个连续性变量之间的关系,连续变量的取值服从正态分布,取值范围是[-1,1],0表示不相关,1表示完全线性相关
Spearman秩相关系数:不服从正态分布的变量、分类或等级变量之间的关联性可采用该系数,也称等级相关系数。只要两个变量具有严格单调的函数关系,那么就是完全Spearman相关的。
判定系数:是相关系数的平方,衡量回归方程对y的解释程度。取值范围是[0,1],越接近0,表示几乎没有直线相关关系。