• 统计学 一 集中趋势


    预览

    参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作    

    统计学分类:

        描述统计学:展示数据, 描述数据的集中和离散程度

        推断统计学:根据样本数据推断总体的数据特征

    统计趋势:

        集中趋势, 离散趋势

    统计学应用:

        有数据, 就有统计分析的需求

    把握要点:

    概率论是统计学实施的基础, 统计学倾向于解决实际问题

        常用符号:

            μ: 总体均值

            σ:总体标准差

            s:样本方差

            Σ:求和

     

    总体和样本:

        同一个数据集合既可以是总体也可以是样本, 具体取决于对该数据集合的分析目标

        分析目标是数据集的数据分布, 则该数据集是总体

        分析目标是通过该数据集,推断其他同类数据的趋势,则该数据集为样本

        例如:

            一个数据集为某个班学生的期末成绩

            分析目标是描述成绩分布的时候, 那么该班的期末成绩为总体

            分析目标是通过该班的成绩推断其他学生的期末成绩的时候, 那么该班的期末成绩为样本

        

     

    集中趋势描述度量:

    数据向中心值靠拢的程度,反映的是数据中心点的位置

    反映集中趋势的测度的统计量: 均值, 中位数, 众数

     

        均值:

    算术平均数, 所有统计数据的平均值, 描述平均水平

     

            均值对较小或者较大的异常值包容性较小, 容易受极端值的影响, 均值并不适合极端值多的数据集

            对于偏态数据集(非对称数据) 均值结果会产生误导, 不能准确反映大多数数据的趋势, 则改用中位数取代

            极端值: 也叫离群点,

     

        分组数据均值:

            分组区间中点X分组频数

     

        中位数:

    数据按照大小的排列顺序,

    位于排序后的数据后的中间的数据

        排序后的个数为偶数时: 中位数是中间两个数值的平均值

        排序后的个数为奇数时: 中位数是就是中间的数值

     

    太过于分散的数据集, 中位数也不能很好 的描述数据的集中趋势, 缺少敏感性

     

    众数:

    数据集中出现频数最多的数值, 众数不唯一

     

    当数据具有明显的集中趋势的时候, 代表性较好, 不受极端值的影响

     

    离散趋势描述度量:

        描述数据分散程度的度量, 也会被称为, 波动测度或者分布测度

        反映离散程度的度量: 极差, 四分位差, 方差, 标准差

        

        极差:

            数据中最大值最小值之差

            简单描述数据的范围大小

        

        四分位差(距):

            数据集中间50%数据的极差, 数值为:数据集中的75%位置的数据和25%位置的数据的值之差

            四分位差求法:

    1. 数据集从小到大排序
    2. 定义:n = 数据集的数据个数, k = 数据集的第k个百分位
    3. 求第k百分位位置的数据位置j
    4. J = Nk/100:为整数 取数据集的第j和j+1位置的数据的均值作为第k百分位的数

      J = nk/100:为小数 取数据集的第j+1位置的数据作为第k百分位的数

    5. 简单就是除的尽,取该位置的数和他后面的数的均值, 除不尽就取整数位置

    方法二:

    1. 找到中位数: 50%分位数
    2. 找到前半部分的中位数 25%分位数(下分位数)
    3. 找到后半部分的中位数 75%分位数(上分位数`)
    4. 最小值 (下边缘)
    5. 最大值(上边缘)

    四分位差不受离群点的影响, 可以制作箱线图, 可以方便的展示数据的分布情况, 数据的极大值,极小值, 数的大多数据的分布情况.

     

        方差σ²:

            每个值和均值的差的平方和除以值个数(元素值的平方和均值的平方差求和再求均值)

            描述数据的离散程度, 数据距离中心越远就越离散

            

        标准差σ:

            方差的开方,为了保持数据描述单位的一致

     

    图示表示数据

        图示展示数据要点:

            清晰易懂, 数据间的差别展示清楚, 传达信息明确

     

        频数表, 频数直方图:

            展示不同类别中所含有的实例数, 某一范围的数据的实例的多少

            频数:绝对频数, 相对频数, 累积频数

                相对频数: 每一类中的个体数占全体个数的比例

                累积频数: 低于该类的所有频数的相对频数和

    条形图:

        展示只有几个类别的离散数据

    堆积条形图:

        突出每组内的值的相对分布情况

     

    饼图:

        展示数据的各个部分占全部比例的情况

        

        帕累托图:

            直方图加折线图, 直方图显示频数和相对频数, 折线图显示累积频数,

    可以清晰的展示最多影响和累积影响

    帕累托2:8原则:

        80%的活动或者结果由20%的原因产生

        

        箱线图:

            由中位数, 第一分位数(下分位数), 第三分位数(上分位数), 最小值(下边缘), 最大值(上边缘) 组成

            可以显示数据的集中趋势, 极差, 对称性, 以及离群点

     

        直方图:

            展示连续数据, 同组数据

            可以判断数据的集中值与正太分布的相似程度

            

        双变量图:

            散点图

            折线图:展示数据的变化趋势

     

        茎叶图:

            左茎右叶图

    保留全部数据信息, 只管显示数据据的分布情况

        柱形图:

            显示一段时间内数据的变化, 或者各项之间的比较情况 不同组数据的对比

     

            

  • 相关阅读:
    2.RunTime类
    1.AutoCloseable接口
    mysql锁机制
    mysql优化和sql语句优化总结
    汉诺塔问题java实现
    springboot+security+JWT实现单点登录
    springboot整合security实现基于url的权限控制
    springboot整合rabbitMQ
    springboot和quartz整合分布式多节点
    springboot和quartz整合实现动态定时任务(持久化单节点)
  • 原文地址:https://www.cnblogs.com/binyang/p/10918541.html
Copyright © 2020-2023  润新知