• 总体参数的估计(概念)


    举例:到底北京人同意北京大力发展轨道交通,由于不大可能询问所有的一千多万北京市民,人们只好进行抽样调查以得到样本,并用样本中同意发展轨道交通的比例来估计真实的比例,从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远不可能知道,但有可能知道估计出来的比例和真实的比例大致差多,从数据得到关于总体参数的一些结论的过程就叫做统计推断

    总体代表人们所关心的那部分世界。而在利用样本中的信息来对总体参数进行推断之前,人们往往对代表总体的变量假定了分布族。在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个与人们所关心的问题有关的具体分布。由于分布族成员是由参数决定的,如果能够估计出参数,对总体的具体分布就知道的差不多了。

    那么,哪些是分布的参数呢?正态分布族中的成员被(总体)均值和标准差完全确定,Bernoulli分布族的成员被概率(或比例)p完全决定。因此如果能对这些参数进行估计,总体分布也就估计出来了。 估计当然要根据从总体所抽取的样本来确定。 那么样本的(不包含未知总体参数的)函数称为统计量,而用于估计的统计量称为估计量。由于一个统计量对于不同的样本取值不同,所以,估计量也是随机变量,并有其分布。 当然,如果样本已经得到,数据已经代入,估计量就有了一个数值,也就不是随机的了,这个数字称为该估计量的一个实现或取值,也称为一个估计值

    估计,分为两种,一种是点估计,也就是用估计量的实现值来近似相应的总体参数。另一种是区间估计,它是包括估计量在内(有时是以估计量为中心)的一个区间,该区间被认为很可能包含总体参数。点估计给出一个数字,用起来方便,而区间估计给出一个区间,留有余地,不想点估计那么绝对。

    区间估计

      当你描述一个人的体重时,你不会说这个人是82.11公斤,而是说这个人是七八十公斤,或者在七十到八十公斤之间。提供的这个范围就是某种区间估计。再例如,在调查某机构的民意检测中,该候选人的支持率在75%,误差是3%,置信度是95%,这样的说法意味着下面三点:

      1、样本中的支持率为75% ,这是用样本比例作为对总体比例的点估计。

      2、估计范围为75%上下百分之3的误差,那么区间为(72%,78%)。

      3、如果用类似的方式,重复抽取大量(样本量相同的)样本时,产生的大量类似区间中有些会覆盖真正的P,而有些不会,但这些区间中大约有95%会覆盖真正的总体比例。

    这样得到的区间被称为总体比例p的置信度为95%的置信区间(confidence interval)。这里的置信度又称置信水平置信系数

    两个正态总体均值之差的区间估计:

    例如:我国两个地区的一些城市2003年的城镇家庭人均消费性支出数据。这里,假定这种支出服从正态分布。在数据中(无论哪种形式)收入是一列,变量名为expend,而区域为另一列,变量名为area。

    希望分别得到这两个总体均值和标准差的点估计(即样本均值和样本标准差)和个子总体均值的95%置信区间,利用R语句:

      w = read.table("expend.txt",header = T) #读入数据。

      x = w[w[,2] == 1,1]; y=w[w[,2] == 2,1] #分开两个区域

      mean(x);sd(x);mean(y);sd(y)#得到个子的均值和标准差:

      作为两个总体均值估计量的样本均值分别为4562.53和5413.72,而样本标准差分别为599.831和785.121

  • 相关阅读:
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    微信小程序TodoList
    C语言88案例-找出数列中的最大值和最小值
    C语言88案例-使用指针的指针输出字符串
  • 原文地址:https://www.cnblogs.com/yangsy0915/p/5173582.html
Copyright © 2020-2023  润新知