• 数据挖掘——统计学分析(三:数据的概括性度量)


    数据的概括性度量

    数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。

    集中趋势的度量

    分类数据:众数

    一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。

    顺序数据:中位数、分位数

    中位数、四分位数、十分位数、百分位数

    数值型数据:平均数

    主要适用于数值型数据,根据所掌握数据的不同,平均数的计算形式和计算公式:

    简单平均数和加权平均数

    众数、中位数和平均数的比较

    单峰分布的大多数据:众数、中位数和平均数之间的关系如下—数据分布是对称的,众数、中位数和平均数必定相等。

    离散程度的度量

    分类数据:异众比率

    非众数据的频数占总频数的比例,主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

    适用于测度分类数据的分散程度。

     

    顺序数据:四分位差

    反映中间50%数据的离散程度,其值越小,说明中间的数据越集中;其值越大,说明中间的数据越分散。

    主要适用于顺序数据的离散程度。

     

    数值型数据:方差和标准差

    极差易受极端值的影响。

    平均差全面地反映一组数据的离散程度。

    方差:较好地反映数据的离散程度,实际中应用最广。

    标准差:比方差更具实际意义。

    相对离散程度:离散系数。

    离散系数->变异系数,是一组数据的标准差与其相应平均数之比。离散系数越大说明数据的离散程度也大;离散系数越小,说明数据的离散程度也小。

    偏态与峰态的度量

     

    偏态及其测度

    对数据分布对称性地测度,用偏态系数来表示,偏态系数=0,说明数据分布是对称的。

    偏态系数不等于0,说明数据分布非对称的;若偏态系数大于1或小于1,称为高度偏态分布;若偏态系数在0.5~1-1~0.5之间,被认为是中等偏态分布;

    峰态及其测度

    峰态是相对于标准正态分布而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖。

  • 相关阅读:
    Powered by .NET Core 进展:验证高并发性能问题嫌疑犯 docker swarm团队
    暴风雨中的 online : .NET Core 版博客站点遭遇的高并发问题进展团队
    【网站公告】.NET Core 版博客站点第二次发布尝试团队
    【故障公告】发布 .NET Core 版博客站点引起大量 500 错误团队
    上周热点回顾(7.29-8.4)团队
    上周热点回顾(7.22-7.28)团队
    上周热点回顾(7.15-7.21)团队
    上周热点回顾(7.8-7.14)团队
    VMware虚拟机克隆Linux(CentOS)系统后找不到eth0网卡的问题(图文详解)
    Word在转PDF的过程中如何创建标签快速方便阅读(图文详解)
  • 原文地址:https://www.cnblogs.com/Erma/p/9739271.html
Copyright © 2020-2023  润新知