「数据挖掘入门系列」数据探索之数据特征分析

「数据挖掘入门系列」数据探索之数据特征分析
对数据质量进行简单的分析后，我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展：
1. 分布分析
2. 对比分析
3. 统计量分析
4. 周期性分析
5. 相关性分析
通过以上5种方式，可以找到数据中存在的某种特征。
分布分析
分布分析很容易理解，就是理解数据的分布情况。例如：在0-100区间有多少数据、100-1000有多少数据等等。我们一般可以使用直方图、饼图来展示数据的分布情况。
分布分析可以分为两种类型：
- 定量数据分布分析
- 定性数据分布分析
定量数据分布分析就是把数据分成一个个固定的区间，然后统计不同区间的分布数值。
定量数据分析的步骤为如下：
1. 求极差（最大值 - 最小值）
2. 决定组距和组数
3. 决定分点
4. 列出频率分布表
5. 绘制频率分布直方图
定性数据分布分析比较简单，就是按照指定的分类来统计不同类别的分布数值。
对比分析
对比分析是指选择具备有一定联系的指标来进行比较，从而发现数据的变化特征。对比分析的关键在于确定对比的标准，才能进行有效的评价。
对比分析主要分为两类：
- 绝对数比较
- 相对数比较
绝对数比较容易理解，就是用指标和一个固定的值来进行比较，寻找数据的差异。
相对数比较是找到几个有联系的指标来进行比较分析，可以发现不同类别指标之间的差异。相对数比较又分为以下几类：
- 结构相对数：用一个分类的指标和总体的指标值对比求得比重，用来说明事物的组成结构。
- 比较相对数：不同分类的指标之间的对比，例如：男女比例、不同区域指标的对比。
- 计划完成程度相对数：和计划数进行比较
- 动态相对数：不同时期的指标进行比较
统计量分析
统计量分析是用统计指标来对定量数据进行分析，一般从集中趋势和离中趋势两个方面来开展分析。
反应集中趋势的度量通常使用均值和中位数。反应异常的指标通常使用的是标准差（方差）、四分位间距。
1、平均数：一组数据，用这组数据的总和除以总分数，得出的数就是这组数据的平均数。平均数的大小与一组数据里的每个数据都有关系，任何一个数据的变动都会引起平均数的变动，即平均数受较大数和较小数的影响。
2. 中位数：将一组数据按大小依次排列，把处在最中间位置的一个数（或最中间位置的两个数的平均数）叫做这组数据的中位数。中位数的大小仅与数据的排列位置有关。因此中位数不受偏大和偏小数的影响，当一组数据中的个别数据变动较大时，常用它来描述这组数据的集中趋势。
以下来说明上述集中度量值的计算方法。
集中趋势分析
均值
均值是所有数据的平均值。
均值对极端值（异常值）很敏感。如果数据中存在某些数据是偏态分布的，那么均值是不能很好地度量数据的集中趋势。为了消除少数异常值的影响，可以使用截断均值或者中位数来度量数据的集中趋势。
阶段均值是指去掉高、低极端值之后的平均数
中位数
中位数是将一组观察值按从小到大的顺序排列，位于中间的那个数。
众数
众数是指数据集中出现最频繁的值。众数一般用于定性变量。
离中趋势分析
极差
极差 = 最大值 - 最小值
标准差
标准差度量数据偏离均值的程度。计算公式为：
变异系数
变异系数度量是标准差相对于均值的离中趋势。计算公式为：
四分位数间距
四分位数间距是上四分位数Qu与下四分位数Ql的差值。间距越大说明变异程度越大；反之，说明变异程度越小。
周期性分析
周期性分析是统计某个指标是否随着时间变化而变化。相对较长的周期性趋势分析有：年度周期性趋势、季度周期性趋势。相对较短的有月度周期性趋势、周度周期性趋势、甚至还有天、小时等周期性趋势。
相关性分析
分析连续变量之间线性相关程度的强弱，并用适当的统计指标表示出来的过程称为相关分析。我们可以通过：直接绘制散点图或者绘制散点图矩阵来开展分析。计算相关性系数有以下几种方法：
1. Pearson（皮尔逊系数）：一般用于分析两个连续性变量之间的关系，它要求连续变量的取值服从正态分布。
2. Speraman（斯皮尔曼相关系数）：不服从正态分布的变量、分类或等级变量之间的关联性可以采取Speraman相关系数来描述。
3. 判定系数：判断系数是相关系数的平方，判定系数越接近1，表示相关性越强，越接近于0，表名两个变量之间几乎没有相关关系。
相关阅读:
转 linux设备模型(4)
SQL convert
SQL 中的 case when
自己写的文本文件加密器
 [A3] 2D Airfoil Aerodynamic Analysis With Fluent & Gambit
[A2]更快的使用你的键盘：AutoHotkey
[A4]更快的使用你的键盘：AutoHotkey(2)
开篇HOG提取训练检测+样本制作
 Flash调用Lua脚本：五
 Sql Server全局变量【转载】
原文地址：https://www.cnblogs.com/ilovezihan/p/12242342.html

「数据挖掘入门系列」数据探索之数据特征分析

分布分析

对比分析

统计量分析

集中趋势分析

均值

中位数

众数

离中趋势分析

极差

标准差

变异系数

四分位数间距

周期性分析

相关性分析