置信区间
置信区间,就是一种区间估计。
先来看看什么是点估计,什么是区间估计。
1 点估计与区间估计
买奖片卡:
点估计:买一张,猜测这一张是否会中奖
区间估计:买一盒,这一盒里面是否有一张中奖
下面解释置信区间是如何进行区间估计的?
2.置信区间
在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。
如:估计某件事件完成会在10~12日之间,但这个估计准确性大约只有80%:表示置信区间(10,12),置信水平80%。要想提高置信水平,就要放宽置信空间。
期望频数
对于分类数据,统计的是频数,也就是每个分类数据出现的次数,而我们观察到的实际上就是观察频数,比如100个顾客购买不同品牌的服装,每个品牌购买的次数就是观察频数(样本特征)。
期望频数指的是如果按照总体的分布特征,品牌购买的次数应该是什么样的。
标准误差
S={[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/N}^0.5(x为平均数,N为样本个数)这个公式用来计算标准(偏)差。此公式中的X也就是所谓的平均数应改为x'1,x'2......(即真实值)。
标准误差(均方根误差)算的是观测值与其真值,或者观测值与其模拟值之间的偏差,而不是观测值与其平均值之间的偏差。
标准误差小,测量的可靠性大一些,反之,测量就不大可靠
Kappa系数
相关系数
1、0.8-1.0:极强相关。
2、0.6-0.8:强相关。
3、0.4-0.6:中等程度相关。
4、0.2-0.4:弱相关。
5、0.0-0.2:极弱相关或无相关。
显著性检验
在作结论时,应确实描述方向性(例如显著大于或显著小于)。
sig值通常用 P>0.05 表示差异性不显著;0.01<P<0.05 表示差异性显著;P<0.01表示差异性极显著。
如果我们是检验某实验中测得的数据,那么当数据之间具备了显著性差异,实验的虚无假设就可被推翻,对立假设(Alternative Hypothesis)得到支持;反之若数据之间不具备显著性差异,则实验的备择假设可以被推翻,虚无假设得到支持。
相关系数:[-1,1] 显著性:可以理解为事件发生的可能性,因为开始假设两变量间不存在任何显著的相关关系 那么这里的显著性也就是假设发生的可能性,小于0.05(5%)时是小概率事件也就会拒绝假设即存在某种显著的相关关系。 得到两变量存在显著的相关关系后再考虑相关系数,相关系数<0,则反向相关。