数据探索

数据探索
通过检验数据集的数据质量，绘制图表、计算某些特征量等手段，对样本数据集的结构和规律进行分析的过程就是数据探索。

数据质量分析

是数据预处理的前提，也是数据挖掘分析结论有效性和准确性的基础，没有有效的数据，数据挖掘构建的模型就是空中楼阁。

缺失值分析

缺失值产生的原因

缺失值的影响

缺失值的分析：缺失属性的个数，缺失率

异常值分析

忽视异常值的存在是十分危险的。

异常值数值明显偏离其余的观测值，异常值也称为离群点，因此也叫离群点分析。

简单统计量分析

最常用的是最大值和最小值，判断这个变量去的取值是否超出合理的范围。

3σ原则

如果数据服从正态分布，在3σ原则下，异常值被定义为一组测定值与平均值的偏差超过3倍标准差的值。

箱型图分析

箱型图提供了识别异常值的一个标准：异常值通常被定义为小于Q_L-1.5IQR或大于Q_U+1.5IQR的值。Q_L称为下四分位数，表示全部观察值中有四分之一的数值比它小；Q_U称为上四分位数，表示全部观察值中有四分之一比它大；IQR称为四分位数间距，是上四分位数Q_U与下四分位数Q_L之差，其间包含了全部观察值的一半。

一致性分析

矛盾性，不相容性。往往存在于从不同的数据源融合数据时发生。

数据特征分析

分布分析

对于定量数据，欲了解其分布形式是对称还是非对称的，发现某些特大或特小的可疑值，可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析；

对于定性数据，可用饼图和条状图直观的显示分布情况。

定量数据的分布分析

选择"组宽"和“组数”的步骤如下：

1、求极差

2、决定组距与组数

3、决定分点（组边界）

4、列出频率分布表

5、绘制频率分布直方图

定性数据的分布分析

对于定型变量，常常根据变量的分类类型来分组，可以采用饼图和条形图来确定描述性变量的分布。

对比分析

把两个相互联系的指标进行比较，从数量上展示和说明研究对象规模的大小，水平的高低，速度的快慢，以及各种关系是否协调。选择合适的对比标准是十分关键的步骤。

主要两种形式：
1. 绝对数比较
2. 相对数比较
统计量分析

从集中趋势和离中趋势两个方面进行分析。

集中趋势：均值、中位数

离中趋势：极差，标准差（方差）、四分位间距

均值的计算也可以加权，均值对极端值很敏感，统计时，可以进行截断或者用中位数。

极差对极端值也很敏感。

变异系数是标准差相对于均值的离中程度

CV = s/x * 100%

四分位数间距中包含了全部观察值的一半。

周期性分析

贡献度分析

又称帕累托分析，其原理是帕累托法则，又称20/80定律。

相关性分析

分析连续变量之间线性相关程度的强弱

直接绘制散点图

适合两两变量

绘制散点图矩阵

同时考察多个变量间的相关关系，在多元线性回归时尤为重要

计算相关系数

Pearson相关系数：一般分析两个连续性变量之间的关系，连续变量的取值服从正态分布，取值范围是[-1,1]，0表示不相关，1表示完全线性相关

Spearman秩相关系数：不服从正态分布的变量、分类或等级变量之间的关联性可采用该系数，也称等级相关系数。只要两个变量具有严格单调的函数关系，那么就是完全Spearman相关的。

判定系数：是相关系数的平方，衡量回归方程对y的解释程度。取值范围是[0,1]，越接近0，表示几乎没有直线相关关系。

Python主要数据探索函数

参考《Python数据分析与挖掘实战》
相关阅读:
[模板]洛谷T3369 普通平衡树链表&普通Treap
C++语法知识点整理
 [模板]洛谷T3373 线段树模板2
[模板]洛谷T3372 线段树模板1
[模板]洛谷T3368 树状数组模板2
JSON
code first迁移和部署
 序列化 (C#)
Linq小记
 文件和注册表
原文地址：https://www.cnblogs.com/51zone/p/10589516.html

数据质量分析

缺失值分析

异常值分析

简单统计量分析

3σ原则

箱型图分析

一致性分析

数据特征分析

分布分析

定量数据的分布分析

定性数据的分布分析

对比分析

统计量分析

周期性分析

贡献度分析

相关性分析

直接绘制散点图

绘制散点图矩阵

计算相关系数

Python主要数据探索函数

参考《Python数据分析与挖掘实战》