笔记（2）：认识数据

笔记（2）：认识数据
数据的属性

数据对象
- 样本
- 实例
- 数据点
- 对象
  数据对象用属性描述。数据表的行对应数据对象；列对应属性
属性
- 标称属性
  类别，状态或事物的名字，每个值代表某个类别、编码或状态，这些值不必具有有意义的序，可以看做是枚举的。
  可以用数值表示这些符号或名称，但并不定量地使用这些数。
- 二元属性
  布尔属性，是一种标称属性，只有两个状态：0或1
  对称：二元属性的两种状态具有同等价值，且具有相同的权重，例如：性别
  非对称：二元属性其状态的结果不是同样重要，例如阳性和阴性，重要的结果用1编码
- 序数属性
  其可能的值之间具有有意义的序或者秩评定，但是相继值之间的差是未知的
  例如：军衔、职称、主观质量评估
- 数值属性（区间标度属性、比率标度属性）
  区间标度：使用相等的单位尺度度量。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。
  如：温度、日期
  比率标度：具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。
数据的基本统计描述

中心趋势度量
- 均值
  一般指算术平均数，是表示一组数据集中趋势的度量，是指在一组数据中所有数据之和再除以这组数据的个数，它是反映数据集中趋势的一项指标。
  令(x_1, x_2, dots, x_N)是某数值属性(x)的(N)个观测值，该值集合的均值为：
  (ar{x} = frac{sum_{i = 1}^N x_i}{N} = frac{x_1 + x_2 + dots + x_N}{N})
  截尾均值：是指在一个数列中，去掉两段的极端值后所计算的算术平均数，也称为切尾均值。截尾均值一般用于比赛评分。
  加权算术平均数：对于集合中的每个值(x_i)都有一个权重(w_i)。权重反映它们所依附的对应值的意义、重要性或出现的频率
  (ar{x} = frac{sum_{i = 1}^N w_ix_i}{sum_{i = 1}^N w_i} = frac{w_1x_1 + w_2x_2 + dots + w_Nx_N}{w_1 + w_2 + dots + w_N})
- 中位数
  有序数据值的中间值
  如果值有奇数个，取中间值；否则取中间两个数的平均值。
  当观测的数量很大时，中位数的计算开销很大。我们可以计算中位数的近似值，这就引入了分组数据中位数。根据(N / 2)确定中位数所在的组。假定数据根据它们的(x_i)值划分成区间，并且已知每个区间的频率（即数据值的个数）。例如，可以根据年薪将人划分成到诸如10000-20000美元、20000-30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式，用插值计算整个数据集的中位数的近似值：
  (median = L_1 + (frac{N/2 + (sum freq)_i}{freq_{median}})width)
  其中，(L_1)是中位数区间的下界，(N)是整个数据集中值的个数，((sum freq)_i)是低于中位数区间的所有区间的频率和，(freq_{median})是中位数区间的频率，而(width)是中位数区间的宽度。
- 众数
  是一组数据中出现次数最频繁的值
  如果出现多个众数，那么有如下经验公式：(mean - mode = 3 imes (mean - median))
- 中列数
  数据集中最大值和最小值的算术平均值
数据分散度量
- 极差
  是集合最大值与最小值之间的差距，即最大值减最小值后所得数据
- 分位数
  取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合
  给定数据分布的第k个q-分位数的值为x，使得小于x的数据值最多为k/q，而大于x的数据值最多为(q-k)/q，其中k是整数，使得0<k<q。这里有q-1个q分位数。
  四分位数：Q1为下分位数，Q2为中位数，Q3为上四分位数
  
  四分位数极差：IQR = Q3 - Q1
  确定四分位数的位置：
  Q1的位置 = ((n + 1) / 4 = (n + 1) imes 0.25)或(1 + (n - 1) imes 0.25)
  Q2的位置 = (2 * (n + 1) / 4 = (n + 1) imes 0.5)或(1 + (n - 1) imes 0.5)
  Q3的位置 = (3 * (n + 1) / 4 = (n + 1) imes 0.75)或(1 + (n - 1) imes 0.75)
  n表示项数
  这里为什么是n+1呢，想想中位数怎么求就知道了
- 方差
  是衡量随机变量或一组数据离散程度的度量，即随机变量对于平均值的偏离程度。每个样本值与全体样本值的平均数之差的平方值的平均数。方差用来计算每一个变量（观察值）与总体均数之间的差异。
  总体方差：(sigma^2 = frac{1}{N}sum_{i = 1}^N(x_i - ar{x})^2 = (frac{1}{N}sum_{i = 1}^n x_i^2)^2 - ar{x}^2)
  样本方差：(s^2 = frac{1}{n - 1}sum_{i = 1}^n(x_i - ar{x})^2 = frac{1}{n - 1}[sum_{i = 1}^nx_i^2-frac{1}{n}(sum_{i = 1}^{n}x_i)^2])
- 标准差
  (sigma) 是方差(sigma^2)的平方根，低标准差意味着数据观测趋向于非常靠近均值，高标准差则表示数据散布在一个大的值域中。
数据的图形显示
- 箱图（箱线图）
  是一种用来描述数据分布的统计图形，可以表现观测数据的中位数、四分位数和极差等描述性统计量
  
  识别可疑的离群点的通常规则是，挑选落在第3个四分位数之上或第1个四分位数之下至少1.5IQR处的值
- 饼图
  通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系
- 频率直方图
  又称频率分布直方图，是在统计学中表示频率分布的图形
- 散点图
  将样本数据点绘制在二维平面或三维空间上，根据数据点的分布特征，直观地研究变量之间的统计关系以及强弱程度
相关阅读:
P1908 逆序对
 P3834 【模板】可持久化线段树 1（主席树）
BZOJ 4300: 绝世好题
 Codevs 2185【模板】最长公共上升子序列
 P1439 【模板】最长公共子序列
 P3865 【模板】ST表
 【转】良心的可持久化线段树教程
 Codevs 1299 切水果
 P3388 【模板】割点（割顶）&& 桥
 P3805 【模板】manacher算法
原文地址：https://www.cnblogs.com/miraclepbc/p/14315954.html

笔记（2）：认识数据

数据的属性

数据对象

属性

数据的基本统计描述

中心趋势度量

数据分散度量

数据的图形显示