• 笔记(2):认识数据


    数据的属性

    数据对象

    • 样本
    • 实例
    • 数据点
    • 对象
      数据对象用属性描述。数据表的行对应数据对象;列对应属性

    属性

    • 标称属性
      类别,状态或事物的名字,每个值代表某个类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的。
      可以用数值表示这些符号或名称,但并不定量地使用这些数。
    • 二元属性
      布尔属性,是一种标称属性,只有两个状态:0或1
      对称:二元属性的两种状态具有同等价值,且具有相同的权重,例如:性别
      非对称:二元属性其状态的结果不是同样重要,例如阳性和阴性,重要的结果用1编码
    • 序数属性
      其可能的值之间具有有意义的序或者秩评定,但是相继值之间的差是未知的
      例如:军衔、职称、主观质量评估
    • 数值属性(区间标度属性、比率标度属性)
      区间标度:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
      如:温度、日期
      比率标度:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。

    数据的基本统计描述

    中心趋势度量

    • 均值
      一般指算术平均数,是表示一组数据集中趋势的度量,是指在一组数据中所有数据之和再除以这组数据的个数,它是反映数据集中趋势的一项指标。
      (x_1, x_2, dots, x_N)是某数值属性(x)(N)个观测值,该值集合的均值为:
      (ar{x} = frac{sum_{i = 1}^N x_i}{N} = frac{x_1 + x_2 + dots + x_N}{N})
      截尾均值:是指在一个数列中,去掉两段的极端值后所计算的算术平均数,也称为切尾均值。截尾均值一般用于比赛评分。
      加权算术平均数:对于集合中的每个值(x_i)都有一个权重(w_i)。权重反映它们所依附的对应值的意义、重要性或出现的频率
      (ar{x} = frac{sum_{i = 1}^N w_ix_i}{sum_{i = 1}^N w_i} = frac{w_1x_1 + w_2x_2 + dots + w_Nx_N}{w_1 + w_2 + dots + w_N})
    • 中位数
      有序数据值的中间值
      如果值有奇数个,取中间值;否则取中间两个数的平均值。
      当观测的数量很大时,中位数的计算开销很大。我们可以计算中位数的近似值,这就引入了分组数据中位数。根据(N / 2)确定中位数所在的组。假定数据根据它们的(x_i)值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分成到诸如10000-20000美元、20000-30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值:
      (median = L_1 + (frac{N/2 + (sum freq)_i}{freq_{median}})width)
      其中,(L_1)是中位数区间的下界,(N)是整个数据集中值的个数,((sum freq)_i)是低于中位数区间的所有区间的频率和,(freq_{median})是中位数区间的频率,而(width)是中位数区间的宽度。
    • 众数
      是一组数据中出现次数最频繁的值
      如果出现多个众数,那么有如下经验公式:(mean - mode = 3 imes (mean - median))
    • 中列数
      数据集中最大值和最小值的算术平均值

    数据分散度量

    • 极差
      是集合最大值与最小值之间的差距,即最大值减最小值后所得数据
    • 分位数
      取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
      给定数据分布的第k个q-分位数的值为x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q。这里有q-1个q分位数。
      四分位数:Q1为下分位数,Q2为中位数,Q3为上四分位数

      四分位数极差:IQR = Q3 - Q1
      确定四分位数的位置:
      Q1的位置 = ((n + 1) / 4 = (n + 1) imes 0.25)(1 + (n - 1) imes 0.25)
      Q2的位置 = (2 * (n + 1) / 4 = (n + 1) imes 0.5)(1 + (n - 1) imes 0.5)
      Q3的位置 = (3 * (n + 1) / 4 = (n + 1) imes 0.75)(1 + (n - 1) imes 0.75)
      n表示项数
      这里为什么是n+1呢,想想中位数怎么求就知道了
    • 方差
      是衡量随机变量或一组数据离散程度的度量,即随机变量对于平均值的偏离程度。每个样本值与全体样本值的平均数之差的平方值的平均数。方差用来计算每一个变量(观察值)与总体均数之间的差异。
      总体方差:(sigma^2 = frac{1}{N}sum_{i = 1}^N(x_i - ar{x})^2 = (frac{1}{N}sum_{i = 1}^n x_i^2)^2 - ar{x}^2)
      样本方差:(s^2 = frac{1}{n - 1}sum_{i = 1}^n(x_i - ar{x})^2 = frac{1}{n - 1}[sum_{i = 1}^nx_i^2-frac{1}{n}(sum_{i = 1}^{n}x_i)^2])
    • 标准差
      (sigma) 是方差(sigma^2)的平方根,低标准差意味着数据观测趋向于非常靠近均值,高标准差则表示数据散布在一个大的值域中。

    数据的图形显示

    • 箱图(箱线图)
      是一种用来描述数据分布的统计图形,可以表现观测数据的中位数、四分位数和极差等描述性统计量

      识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5IQR处的值
    • 饼图
      通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系
    • 频率直方图
      又称频率分布直方图,是在统计学中表示频率分布的图形
    • 散点图
      将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观地研究变量之间的统计关系以及强弱程度
  • 相关阅读:
    P1908 逆序对
    P3834 【模板】可持久化线段树 1(主席树)
    BZOJ 4300: 绝世好题
    Codevs 2185【模板】最长公共上升子序列
    P1439 【模板】最长公共子序列
    P3865 【模板】ST表
    【转】良心的可持久化线段树教程
    Codevs 1299 切水果
    P3388 【模板】割点(割顶)&& 桥
    P3805 【模板】manacher算法
  • 原文地址:https://www.cnblogs.com/miraclepbc/p/14315954.html
Copyright © 2020-2023  润新知