• 统计分析中的假设检验


    摘抄的一篇假设检验的文章,比较浅显移动,一起学习吧。

    关于假设检验

    假设检验(Hypothesis Testing),或者叫做显著性检验(Significance Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。既然以假设为前提,那么在进行检验前需要提出相应的假设:

    H0:原假设或零假设(null hypothesis),即需要去验证的假设;一般首先认定原假设是正确的,然后根据显著性水平选择是接受还是拒绝原假设。

    H1:备择假设(alternative hypothesis),一般是原假设的否命题;当原假设被拒绝时,默认接受备择假设。

    如原假设是假设总体均值μ=μ0,则备择假设为总体均值μ≠μ0,检验的过程就是计算相应的统计量和显著性概率,来验证原假设应该被接受还是拒绝。

    T检验

    T检验(T Test)是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异。T检验属于参数假设检验,所以它适用的范围是数值型的数据,在网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销售额等。T检验还需要符合一个条件——总体符合正态分布。

    这里不介绍t统计量是怎么计算的,基于t统计量的显著性概率是怎么查询的,其实这些计算工具都可以帮我们完成,如果有兴趣可以查阅统计类书籍,里面都会有相应的介绍。这里介绍的是用Excel的数据分析工具来实现T检验:

    Excel默认并没有加载“数据分析”工具,所以需要我们自己添加加载项,通过文件—选项—加载项—勾选“分析工具库”来完成添加,之后就可以在“数据”标签的最右方找到数据分析这个按钮了,然后就可以开始做T检验了,这里以最常见的配对样本t检验为例,比较某个电子商务网站在改版前后订单数是否产生了显著性差异,以天为单位,抽样改版前后各10天的数据进行比较:

    首先建立假设:

    H0:μ1=μ2,改版前后每天订单数均值相等;

    H1:μ1≠μ2,改版前后每天订单数均值不相等。

    将数据输入Excel,使用Excel的数据分析工具,选择“t检验:平均值的成对二样本分析”,输出检验结果:

    t-test-sample

    看到右侧显示的结果是不是有点晕了,看上去有点专业,其实也并不难,只要关注一个数值的大小——单尾的P值,这里是0.00565,如果需要验证在95%的置信水平下的显著性,那么0.00565显然小于0.05(1-95%),拒绝零假设,认为改版前后的订单数存在显著性差异。简单说下为什么选择单尾显著性概率P,而不是双尾,对于大部分网站分析的应用环境,我们一般需要验证改动前后数值是否存在明显提升或下降,所以一般而言只会存在一类可能——或者提升或者下降,所以只要检验单侧的概率即可,就像上面例子中改版后的订单数均值1240.6大于改版前的1097.3,我们需要验证的就是这种“大于”是否是显著的,也就是做的是左侧单边检验,这种情况下只要关注单尾的显著性概率P即可。

    卡方检验

    卡方检验(chi-square test),也就是χ2检验,用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或二项分布数据,基于两个概率间的比较,早期用于生产企业的产品合格率等,在网站分析中可以用于转化率、Bounce Rate等所有比率度量的比较分析,其实在之前的文章——Abandonment Rate的影响因素进行过相关的应用。这里同样不去介绍χ2是如何计算得到的,以及基于χ2统计量的显著性概率的查询等,这里直接以转化率为例来比较网站改版前后转化率是否发生了显著性差异,抽样改版前后各3天的网站分析数据——总访问数和转化的访问数,用“转化访问数/总访问数”计算得到转化率:

    首先建立假设:

    H0:r1=r2,改版前后转化率相等;

    H1:r1≠r2,改版前后转化率不相等。

    其实这是一个最简单的四格卡方检验的例子,也无需使用SPSS(当然你足够熟悉SPSS也可以使用类似的统计分析工具),为了简化中间的计算步骤,我这里用Excel直接制作了一个简单的卡方检验的模板,只要在相应的单元格输入统计数据就能自动显示检验的结果:

    chi-square-test-sample


    原文链接:http://webdataanalysis.net/data-analysis-method/t-test-and-chi-square-test/

    另外:在matlab工具提供ttest()、ttest2()两个T检验函数进行状态总体的显著性分析,区别在于:ttest(x,m,p)主要用来检验服从正太分布的样本X,在显著性水平p下,其均值是否为m; 而[H,P,CI]=ttest2(X,Y)函数主要用于检验两个正太总体的样本X、Y,其均值是否存在显著性差异;


  • 相关阅读:
    数据结构和算法关系
    x轴滚动
    常用Python第三方库简介
    devgridContral
    第一次线程使用经验总结
    调取图片出现的的内存泄露,导致大红叉
    IEEE754 处理数据变换
    c# 基础任务1
    Python-常用第三方库
    C#高性能大容量SOCKET并发(八):通讯协议
  • 原文地址:https://www.cnblogs.com/cl1024cl/p/6205059.html
Copyright © 2020-2023  润新知