统计学的基本概念，你知道多少

统计学的基本概念，你知道多少
统计学习的基本概念（复习篇）
1. 总体（population）：根据研究目的确定的同类对象的全体（集合）　　样本（sample）：从总体中随机抽取的部分具有代表性的研究对象。
2. 参数（Parameter）：反映总体特征的统计指标，如总体均数、标准差等，是固定的常量。
3. 统计量（statistic）：反映样本特征的统计指标，如样本均数、标准差等，是在参数附近波动的随机变量。
4. 统计资料分布（statistical distribution）：定量（计量）资料、定性（计数）资料、等级资料。
  
  计量资料统计描述：
- 集中趋势：均数（mean）、中位数（median）、众数（mode）。
- 离散趋势：极差（range）、四分位间距（interquartile range）、标准差(standard deviation)（或方差(variance））、变异系数（variable coefficient）。
注：四分位数（Quartile）是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。第三四分位数与第一四分位数的差距又称四分位距（InterQuartile Range, IQR）。

在概率论和统计学中，变异系数，又称“离散系数”（英文：coefficient of variation），是概率分布离散程度的一个归一化量度，其定义为标准差与平均值之比

　　二项分布（Bionomial Distribution）：
1. 说起二项分布(binomial distribution)，不得不提的前提是伯努利试验(Bernoulli experiment)，也即n次独立重复试验。伯努利试验是在同样的条件下重复、相互独立进行的一种随机试验。
  
  伯努利试验的特点是：
  
  （1）每次试验中事件只有两种结果：事件发生或者不发生，如硬币正面或反面，患病或没患病；
  
  （2）每次试验中事件发生的概率是相同的，注意不一定是0.5；
  
  （3）n次试验的事件相互之间独立。
  
  举个实例，最简单的抛硬币试验就是伯努利试验，在一次试验中硬币要么正面朝上，要么反面朝上，每次正面朝上的概率都一样p=0.5，且每次抛硬币的事件相互独立，即每次正面朝上的概率不受其他试验的影响。如果独立重复抛n=10次硬币，正面朝上的次数k可能为0,1,2,3,4,5,6,7,8,9,10中的任何一个，那么k显然是一个随机变量，这里就称随机变量k服从二项分布。
  
  n次抛硬币中恰好出现k次的概率为：P(X=k) = C(n,k) * p^k*(1-p)^n-k
这就是二项分布的分布律，记作X~B(n,p)，其中C(n,k)是组合数，在数学中也叫二项式系数，这就是二项分布名称的来历。判断某个随机变量X是否符合二项分布除了满足上述的伯努利试验外，关键是这个X是否表示事件发生的次数。二项分布的数学期望E(X)=np，方差D(X)=np*(1-p)。

　　泊松分布（poisson distribution）

泊松分布描述的是一个离散随机事件在单位时间内发生的次数, 其对应的场景是我们统计已知单位事件内发生某事件的平均次数λ, 那么我们在一个单位事件内发生k次的概率是多大呢?

比如说医院产房里统计历史数据可知, 平均每小时出生3个宝宝,那么在接下来的一个小时内, 出生 0 个宝宝, 1 个宝宝, …, 3 个宝宝, …10 个宝宝, n 个宝宝的概率分别是多少呢? 泊松分布给出了定量的结果 :

其中 P(X=k) 描述的就是在单位时间内事件 X发生 k次的概率, λ代表在单位时间内事件发生的平均次数, 也就是泊松分布的期望, 同时也是方差.

一个场景可以用泊松分布来描述, 需要满足三个条件：
1. 1. 均值稳定. 即 λ在任意划定的单位时间长度内,应该是一个稳定的数值.
  2. 事件独立. 事件之间相互独立, 若相关, 则泊松分布失效.
  3. 在一个极小的时间内, 事件发生的次数应趋近于0. 比如说：产房平均 1 小时出生 3 个宝宝, 那我任意指定1ms, 那这1ms 内出生的宝宝数趋近于 0 .
　　大数定理（Law of large numbers)

设随机变量$X_1,X_2,X_3,...,X_n$是一列互相独立的随机变量（或者两两不相关），并且分别存在期望$E(X_k)$,则对于任意小的正数ε有： $$ \lim_{x→∞}P(|\frac{1}{n}\sum_{k=1}^nX_k-\frac{1}{n}\sum_{k=1}^nE(X_k)|<ε) $$ 理解：随着样本数量n的增加，样本的平均数（总体中的一部分）将接近于总体样本的平均数，所以在统计推断中一般使用样本平均数估计总体平均数的值。

下面我们用简单的python代码来客观展现出大数定理：
import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt # 防止中文乱码 mpl.rcParams['font.sans-serif']=[u'simHei'] mpl.rcParams['axes.unicode_minus']=False # 定义数据量大小 numberSize = 200 # 生成服从正态分布的随机数据，其均值为0 randData = np.random.normal(scale=100, size=numberSize) # 保存随机每增加一个数据后算出来的均值 randData_average = [] # 保存每增加一个数据后的数据和 randData_sum = 0 # 通过循环计算每增加一个数据后的均值 for index in range(len(randData)): randData_average.append((randData[index] + randData_sum) / (index + 1.0)) # 定义作图的x值和y值 x = np.arange(0,numberSize,1) y = randData_average # 作图设置 plt.title('大数定律') plt.xlabel('数据量') plt.ylabel('平均值') # 作图并展示 plt.plot(x,y) plt.plot([0,numberSize], [0,0], 'r') plt.show()
结果如下：
由上图即可进一步验证我们的结论，随着数据量的增加，均值越来越接近实际均值0。

即当我们的样本数据量足够大的时候，我们就可以用样本的平均值来估计总体平均值。
1. 正态分布（Normal distribution）：正态分布又叫高斯分布，若随机变量$X$服从一个数学期望为μ、方差为σ²的正态分布，记为N(μ，σ²):（这个我单写过一章学习）
其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布
```
 
```
如需转载请联系作者：qq:3336987685 微信：LeoLRH
相关阅读:
第12组(78) Beta冲刺 (2/5)（组长）
第12组 Beta冲刺 (1/6)（组长）
软工实践个人总结
 第 02 组每周小结 (3/3)
第02组每周小结（2/3）
第02组每周小结 (1/3)
第02组Beta冲刺总结
 第02组Beta冲刺（5/5）
第02组Beta冲刺（4/5）
第02组Beta冲刺（3/5）
原文地址：https://www.cnblogs.com/LeoLRH/p/10335892.html

统计学的基本概念，你知道多少

统计学习的基本概念（复习篇）

二项分布（Bionomial Distribution）：

泊松分布（poisson distribution）

大数定理（Law of large numbers)

　　二项分布（Bionomial Distribution）：

　　泊松分布（poisson distribution）

　　大数定理（Law of large numbers)