• 数据分析的统计基础5


    样本均值、样本比例和样本方差的抽样分布

    样本均值的抽样分布

    • 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布
    • 一种理论概率分布
    • 推断总体均值(mu)的理论基础
    • 大数定律表明:当来自于独立同分布(i.i.d)的总体(该总体均值为(mu),方差为(sigma^2))中(n)个随机变量(X_1,X_2,...X_n),其均值(ar X = n^{-1}sum limits_{i=1}^{n}X_i),随着(n o infty),有(E(ar X)=mu,Var(ar X) =sigma^2/n),中心极限定理告诉表明:随着(n o infty)(ar X = n^{-1}sum limits_{i=1}^{n}X_i)近似服从正态分布。综合两者有:(ar X = n^{-1}sum limits_{i=1}^{n}X_i sim N(mu,sigma^2/n))

    两样本均值差的分布

    • 两个总体都为正态分布,即$ X_1 sim N(mu_1 ,sigma_1^2)​$ ,$ X_2 sim N(mu_2 ,sigma_2^2 )​$

    • 两个样本均值之差(ar X_1 - ar X_2)的抽样分布服从正态分布,即(ar X_1 - ar X_2 sim N(mu_1-mu_2,sigma_1^2/n_1 + sigma_2^2/n_2)),其分布的数学期望和方差分别为:

      [E(ar X_1 - ar X_2) = E(ar X_1 - ar X_2) = mu_1 - mu_2 ]

      [Var(ar X_1 - ar X_2) = frac{sigma_1^2}{n_1} + frac{sigma_2^2}{n_2} ]

    • 特别地,若(sigma_1^2 = sigma_2^2 = sigma^2)时,有:

      [frac{(ar X_1 - ar X_2 ) - (mu_1 - mu_2)}{s_omega sqrt{frac{1}{n_1}+frac{1}{n_2}}} sim t(n_1+n_2-2) ]

      其中(s_omega^2 = frac{(n_1-1)s_1^2 + (n_2 - 1)s_2^2}{(n_1-1)+(n_2-1)})

    样本比例的抽样分布

    • 总体比例:(pi = N_0 / N),具有(0)类特征的数量(N_0)与总体所有的数量(N),样本比例:$p = n_0 / n $

    • 在重复选取容量为n的样本时,由样本比例的所 有可能取值形成的相对频数分布

    • 一种理论概率分布

    • 推断总体比例(pi)的理论基础

    • 样本比例的均值满足:(E(p) = pi),样本比例的方差需要关注有放回(重复)抽样和无放回(不重复)抽样的问题

      • 重复抽样(独立同分布):

      • [Var(p) = frac{pi (1 - pi)}{n} ]

      • 不重复抽样:

      • [Var(p) = frac{pi (1-pi)}{n} frac{N-n}{N-1} ,frac{N-n}{N-1} ext{被称为有限总体校验,当}n<<N ext{时,可以忽略} ]

    • 当样本容量很大时,样本比例的抽样分布可用正态分布近似当样本容量很大时,样本比例的抽样分布可用正态分布近似

    棣莫弗-拉普拉斯中心极限定理:设(X_1,X_2,...X_n,...)是独立同分布(independently identically distribution)的随机变量,(X_i)的分布是(P(X_i=1)=p)(P(X_i=0) = 1- p),$ 0 < p < 1$。

    则对任何实数(x),有

    [lim_{n o infty} Pleft( frac{sum limits_{i=1}^{n}X_i - np}{sqrt{np(1-p)}} leq x ight) = Phi(x) ]

    单个(X_i)服从伯努利分布,可以理解为属于某个特征和不属于某个特征,其满足(mu = p,sigma^2 = p(1-p))(E(sum limits_{i=1}^{n}X_i) = np,Var(sum limits_{i=1}^{n}X_i) = np(1-p))。上式(证明从略),又表明当(n o infty)时,(sum limits_{i=1}^{n}近似服从正态分布,)(sum limits_{i=1}^{n}X_i) sim N(np,np(1-p))),上式还可以改写为:

    [lim limits _{n o infty}Pleft(frac{ar X - p}{sqrt{p(1-p)/n}} leq x ight) = Phi(x) ]

    对于(n)个伯努利随机变量,(ar X = n^{-1}sum limits_{i=1}^{n}X_i)的实际意义即为(X_i)为"(1)" 类的占比。

    样本方差的抽样分布

    • 在重复选取容量为(n​)的样本时, 由样本方差的所有可能取值形成的相对频数分布
    • 对于来自正态总体的简单随机样本, 则比值(frac{(n-1)s^2}{sigma^2} sim chi_{n-1}^2)

    两个样本方差比的分布

    • 两个总体都为正态分布,即$ X_1 sim N(mu_1 ,sigma_1^2)$ ,$ X_2 sim N(mu_2 ,sigma_2^2 )$

    • 从两个总体中分别抽取容量为(n_1​)(n_2​)的独立样本

    • 两个样本方差比的抽样分布, 服从分子自由度为 ((n_1-1)), 分母自由度为((n_2-1))(F)分布

    说明:

    [frac{(n_1-1)s_1^2}{sigma_1^2} sim chi_{n_1-1}^2 , frac{(n_2-1)s_2^2}{sigma_2^2} sim chi_{n_2-1}^2 ]

    根据(F​)分布的定义,上式相除有:

    [frac{s_1^2/s_2^2}{sigma_1^2/sigma_2^2} sim F(n_1-1,n_2-1) ]

    有了上表,我们分别构造了估计总体参数(mu)(pi)( au)(sigma^2)的估计量(ar X)(p)(T=Nar X)(s^2),如果我们知道总体的方差,则可以给出对应的估计的标准误差,当总体方差未知时,我们可以通过标准误的估计来估计总体的方差。

  • 相关阅读:
    Linux操作系统加固建议 风行天下
    python 中 os.walk() 函数详解 风行天下
    windows系统修改文件夹颜色工具 风行天下
    linux运维python递归遍历目录+案例应用
    rsyslog写入日志文件报错的问题 风行天下
    linux存放history命令的文件 风行天下
    python 远程登陆一次执行多条命令 风行天下
    【Linux】Linux文件之/etc/fstab 风行天下
    消息队列初见:一起聊聊引入系统mq 之后的问题
    常见性能优化实践总结
  • 原文地址:https://www.cnblogs.com/evian-jeff/p/11406219.html
Copyright © 2020-2023  润新知