在认识了数据之后,我们要知道基本的数据统计方法为数据处理做准备
数据统计动机:
为了更好地理解数据:集中趋势、分布
数据统计的常用统计特性:
最大值,最小值,中位数,位数,离群值,方差等
中性化趋势度量:均值、中位数、众数
平均值:一组数据的均衡点(均值对离群值很敏感,因此,中位数和截断均值也很常用(暂时还不理解))\(mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}x_{i}\)
中位数:\(median\left ( x\right ) = \begin{cases}
x_{r+1} & \text{}m为奇数 \\
\frac{1}{2}\left ( x_{r}+x_{r+1}\right ) & m为偶数
\end{cases}\)
众数:一组数据中出现次数最多的数据值
经验公式:\(mean - mode = 3\times \left ( mean-median\right )\)
离散度度量:
下图为一个盒状图,红色小点即为离群点,所谓离群点就是我们数据里面可能存在的一些噪音数据,通常在我们数据挖掘的算法过程中要删除这些点,来提高我们数据挖掘算法的精度和效果
四分位点:四分位数:Q1(第25百分位),Q3(第75百分位)
四分位数极差:IQR = Q3 - Q1
五点概况:min,Q1,median,Q3,max
离群点:通常一个值高于或低于\(1.5\times IQR\)