《一、探索性数据分析》
【1.3 位置估计】
平均值:所有数的总和除以个数
加权平均值:所有数的加权和除以权值和
中位数:使得数据集有一半的数位于该值之上和之下
加权中位数:使得数据集有一半的权重之和位于该值 之上和之下
切尾均值:去除最大和最小的若干值后的平均值
离群值:与大部分数差异较大的值
【1.4 变异性估计】
偏差:位置的观测值和估计值的差距
方差:n个数据距离均值的偏差的平方和,再除以n-1
标准差:方差的平方根
平均绝对偏差:数据距离均值的绝对值的平均数
中位数绝对偏差:数据距离均值的绝对值的中位数
极差:最大数和最小数的差距
百分位数:P%的数小于该数,100-P%的数大于该数
【1.5 探索数据分布】
箱线图:箱顶为75百分位数,箱底25百分位数,箱中线为50百分位数
直方图:将极差等分,根据间隔内出现频次绘图
密度图:基于直方图的平滑表示,基于某种核密度估计
【1.6 探索分类数据和二元数据】
众数:数据中出现次数最多的数或类别
期望值:如果类别与一个数据关联,可以根据类别出现的概率计算一个平均值
条形图:表示各个类别出现的频数
饼状图:条形图的另一种表示
【1.7 相关性】
相关系数:衡量两个变量的相关性,介于-1到1之间
皮尔逊相关系数:两个变量的对应值的偏差乘积和除以两变量的方差,再除以n-1
相关矩阵:多个变量两两相关系数构成的矩阵
散点图:用x轴表示一个变量的值,用y轴表示另一个变量的值
【1.8 探索两个及以上的变量】
列联表:对两个或两个以上变量进行联结计数的表格
六边形图、等势图、热力图:密度图的多维扩展
小提琴图:箱线图的扩展
《二、数据和抽样分布》
【2.1 随机抽样和样本偏差】
总体:一个大型数据集,或者一个假想大型数据集
样本:总体的子集
随机采样:从总体中随机选取元素到样本
分层采用:对总体分层,在每层中进行随机采样
简单随机采样:不分层的情况下随机采样
样本偏差:样本对总体做出了错误的解释
【2.2 选择偏差】
选择偏差:以可导致误导性和短暂性结论的方式,有选择性的采样
数据窥探:为了得到感兴趣的结果,在大量数据中反复查找
大规模搜索效应:反复数据建模或搜索导致的数据偏差或不可复现性结论
趋均值回归:对同一变量进行连续测量,在极端测量值后,往往会出现更趋向于中心值的观测值
【2.3 统计量的抽样分布】
样本统计量:样本中一些数据的度量值
数据分布:一个值在数据集中的频数分布
抽样分布:一个样本统计量在不同样本中的频数分布
中心极限定理:无论数据分布如何,当样本量足够大时,抽样分布趋向于正态分布
标准误差:不同样本间的偏差
【2.4 自助法】
Bootstrap:有放回的采样
Bagging:Bootstrap Aggregating,多次有放回的采样,改善模型预测性能
【2.5 置信区间】
置信区间:自助法是一种通用的衡量方法,可以帮助判断样本量大小是否合适
【2.6 正态分布】
标准化:数据减去均值除以标准差
z分数:单个数据点标准化的结果
标准正态分布:均值为0,标准差为1的正态分布
QQ图:将数据标准化,y轴为数据的z分数,x轴为数据排序后对应标准正态分布的分位数,如果数据基本分布在对角线,则说明基本符合正态分布
【2.7 长尾分布】
尾:一个频数分布的狭长部分
偏斜:分布的一个尾部大于另一个尾部
长尾分布:数据趋向于均值时,近似于正态分布,但趋向于极值时,频数远大于正态分布
【2.8 学生t分布】
【2.9 二项分布】
二项分布:多次重复同一结果为1或0的实验,结果为1的次数的分布
【2.10 泊松分布及其相关分布】
泊松分布:已知单位时间内平均发生次数,一段时间内发生次数的分布
指数分布:已知单位时间内平均发生次数,相邻两次发生的时间间隔的分布
《三、统计实验与显著性检验》
【3.1 A/B测试】
实验组:执行特定处理的一组对象
对照组:执行标准处理或不执行处理的一组对象
随机化:随机地分配实验对象以进行处理的过程
检验统计量:用于检验处理效果的度量
【3.2 假设检验】
零假设:完全归因于偶然性的假设
备择假设:与零假设相反,希望证实的假设
单向检验:在假设检验中,只从一个方向上计数偶然性结果
双向检验:在假设检验中,从正反两个方向上计数偶然性结果
【3.3 重抽样】
置换检验:将多组样本组合在一起,随机重新采样分组,统计组间差异分布,判断统计显著性
【3.4 统计显著性和p值】
p值:在模型中加入零假设,观测结果比随机模型生成结果更极端的概率
a值:p值的门限
【3.5 t检验】
t统计量:通过样本均值、方差、样本数等得到的归一化的检验统计量,可以查表得到p值
【3.6 多重检验】
第一类错误:将随机产生的结果判定为统计显著,按照概率,如果从足够多的的视角去观察数据,总可以发现具有统计显著性的结果,犯错误
错误发现率:在多重检验中,犯第一类错误的比率,增加交叉验证可以降低得到虚假显著性结论的风险,如果没有已标记的验证集,则应意识到对数据的查询和操作越多,越可能得到虚假显著性结论
【3.7 自由度】
自由度:对统计检验意义不大,因为数据规模一般很大,但对于回归问题可能会产生多重共线性,要考虑自由度
【3.8 方差分析】
多项检验:多项实验中,如果两两对比,则很容易造成虚假显著性,可以对所有组数据合并再反复抽取,计算组间均值的方差,得到均值方差的分布,与观测各组均值方差做对比
【3.9 卡方检验】
皮尔逊残差:分组统计数据与合并所有组后的统计数据(零假设得出的期望)的差,除以后者的开方
卡方检验:对所有组数据合并再反复抽取,计算皮尔逊残差的平方和,得到皮尔逊残差平方和分布,与观测各组皮尔逊残差平方和做对比
费舍尔精确检验:数据量较小时通过精确计算每种交叉情况的概率得到p值
【3.10 多臂老虎 机算法】
多臂老虎 机:以某种概率选择当前最优分组,其余机会选择探索所有分组以得到统计数据,发现最优分组
【3.11 检验效能和样本规模】
效果规模:在统计检验中,期望能检测到的效果的最小差距
检验效能:给定样本规模,检测到给定效果规模的概率,可以通过假设样本数据,给定样本数,然后置换假设检验得到