数据分析的统计基础3

数据分析的统计基础3
期望与方差

随机变量的期望

随机变量的期望的概念类似于加权平均，其所有的可能取值由他们的概率加权。

离散型随机变量的期望：如果(X)是频率函数为(p(x))的离散型随机变量，且满足(sum limits_{i}|x_I|p(x_i) < infty)，则(X)的期望，记为(E(X))，是：

[E(X) = sum limits_ix_ip(x_i) ]
如果和式发散，则期望无定义。(E(X))也称为(X)的均值，通常记作(mu)或(mu_X)，将其视作频率函数的质量中心有助于我们理解(X)的期望。
- 几何随机变量的期望：(E(X) = frac{1}{p})
  
  推导：(X)是服从几何分布的随机变量，所以(P(X=k) = (1-p)^{k-1}p)，则
[E(X) = sum limits_{k=1}^{infty}k(1-p)^{k-1}p=psum limits_{k=1}^{infty}k(1-p)^{k-1} ]
令(1-p=q)，因为(kq^{k-1}=frac{d}{dq}q^k)，交换求和和微分运算的顺序，得到：

[E(X) = pfrac{d}{dq}sum limits_{k=1}^{infty}q^k=pfrac{d}{dq}frac{q}{1-q}=frac{p}{(1-q)^2}=frac{1}{p} ]
- 泊松随机变量的期望：(E(X) = lambda)
  
  推导：
  
  [E(X) = sum limits_{k=0}^{infty}frac{klambda^k}{k!}e^{-lambda}=lambda e^{-lambda}sum limits_{k=1}^{infty}frac{lambda^{k-1}}{(k-1)!}=lambda e^{lambda}sum limits_{j=0}^{infty}frac{lambda^j}{j!} ]
  因为(sum limits_{j=0}^{infty} (lambda^j/j!)=e^lambda)，所以得(E(X) = lambda)。因此，泊松分布的参数(lambda)可以解释为平均数。
连续型随机变量的期望：(连续型随机变量期望的定义是离散情形的直接推广：离散和被连续积分替代) 如果(X)是密度函数为(f(x))的连续型随机变量，且满足(int |x|f(x)dx < infty)，那么：

[E(X) = int _{-infty}^{infty}xf(x)dx ]
如果积分发散，那么期望无定义。(E(X))同样视为密度质量的中心。
- 伽马随机变量的期望：(E(X)= frac{alpha}{lambda})
  
  推导：如果(X)服从参数为(alpha)和(lambda)的伽马密度，那么
  
  [E(X)=int_{0}^{infty}frac{lambda^alpha}{Gamma(alpha)}x^alpha e^{-lambda x}dx ]
  一旦我们意识到(lambda^{alpha+1}x^{alpha}e^{-lambda x}/Gamma(alpha+1))是伽马密度，且全积分等于(1)。因此我们有：
  
  [int_{0}^{infty}x^alpha e^{-lambda x}dx = frac{Gamma(alpha + 1)}{lambda ^{alpha + 1}} ]
  由此可得
  
  [E(X)= frac{lambda ^ alpha}{Gamma(alpha)} left[ frac{Gamma(alpha + 1)}{lambda ^ {alpha + 1}} ight] ]
  最后利用(Gamma(alpha + 1) = alpha Gamma(alpha))，得到(E(X)=frac{alpha}{lambda})
对于指数密度，(alpha=1)，因此(E(X)=1/lambda)。它的中位数是(log2/lambda)，均值和中位数都可以视作(X)的“代表值”，但它们所度量的分布性质是不同的。
- 正态随机变量的期望：(E(X) = mu)
  
  推导：
  
  [E(X) = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}xe^{-frac{1}{2}frac{(x-mu)^2}{sigma^2}}dx ]
  利用变量变换(z=x-mu)，则(dz = d(x-mu))。方程变为：
  
  [E(X) = frac{1}{sigmasqrt{2pi}}int_{-infty}^{infty}ze^{-z^2/2sigma^2}dz+frac{mu}{sigmasqrt{2pi}}int_{-infty}^{infty}e^{-z^2/2sigma^2}dz ]
  上式第一个积分为奇函数，积分值为(0)；第二个积分中，由于正态密度积分等于(1)，所以积分值为(mu)。
期望值可以解释为长期平均。后续将证明当(n o infty)时，(ar X = sumlimits_{i=1}^{n}X_i / n o E(X))

马尔科夫不等式：如果随机变量(X)满足(P(X geq 0) = 1)，且(E(X))存在，那么(P(X geq t) leq E(X)/t)

推导：(只证明离散情形，连续情形完全类似)：

[E(X) = sum limits_xxp(x)=sum limits_{x<t}xp(x) + sum limits_{x geq t}xp(x) ]
因为(X)只取非负值，所以上式的每一项都是非负的。因此

[E(X) geq sum limits_{xgeq t}xp(x) geq sum limits_{xgeq t}tp(x) =tP(X geq t) ]
得证！

这个不等式告诉我们，(X)大于(E(X))的概率是较小的。假设在定理中，我们令(t = kE(X))，根据结论，有(P(X geq kE(x)) leq 1/k)，无论何种概率分布，这个结论对任何非负随机变量都成立。

随机变量函数的期望

假设(Y=g(X))。
- 如果(X)是具有频率函数(p(x))的离散随机变量，且满足(sum|g(x)|p(x) < infty)，那么
  
  [E(Y) = sum limits_x g(x)p(x) ]
- 如果(X)是密度函数为(f(x))的连续随机变量，且满足(int_{-infty}^{infty}|g(x)|f(x)dx < infty)，那么
  
  [E(Y) = int_{-infty}^{infty}g(x)f(x)dx ]
证明略。

随机变量线性组合的期望

期望最有用的性质是它的线性运算。

如果(Y=aX+b)，那么(E(Y) = a E(X) + b)，更一般地，这个性质可以推广到随机变量的线性组合。

如果(X_1,X_2,...,X_n)是具有期望(E(X_i))的联合分布随机变量，(Y)是(X_i)的线性函数，(Y = a + sum limits_{i=1}^{n}b_iX_i)，那么有：

[E(Y) = a +sum limits_{i=1}^{n}b_iE(X_i) ]
- 二项分布的期望：(E(Y) = np)
  
  推导：(E(Y) = sum limits_{i=1}^{n} inom{n}{k}p^k(1-p)^{n-k})
  
  和式的计算不是显而易见的。但我们可以将(Y)表示成伯努利随机变量(X_i)之和，其中根据第(i)次试验成功与否取值(1)或(0)，(Y = sum limits_{i=1}^{n}X_i)，因为(E(X_i)=0 imes(1-p) + 1 imes p = p)，得(E(Y) = np)。
方差和标准差

随机变量的期望是它的平均值，可以视作密度或者频率函数的中心。因此，期望有时称为位置参数(location parameter)。分布的中位数也是位置参数，且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation)，它描述概率分布关于中心的发散程度，度量随机变量偏离期望的平均幅度。

如果(X)是具有期望(E(X))的随机变量，只要下述期望存在，(X)的方差就是:

[Var(X) = Eleft{ [X - E(X)]^2 ight} ]
(X)的标准差就是方差的平方根。
- 如果(X)是频率函数为(p(x))的离散随机变量，期望值(mu = E(X))，根据定义有：
  
  [Var(X) = sum_i (x_i - mu )^2p(x_i) ]
- 如果(X)是密度函数为(f(x))的连续随机变量，期望值(mu=E(X))，那么：
  
  [Var(X) = int_{-infty}^infty(x-mu)^2f(x)dx ]
方差通常记为(sigma^2)，标准差为(sigma)。根据上面的定义，(X)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方，标准差的单位与随机变量一致。

随机变量的方差在线性变换的条件下的转换方式比较简单。

如果(Var(X))存在，(Y=aX+b)，那么(Var(Y) = b^2 Var(X))

推导：因为(E(Y)=a + b E(X))，

[egin{align*} Var(Y) &= E[(Y-E(Y))^2] =Eleft{[a+bX - (a + b E(X))]^2 ight} \ &=Eleft{ b^2[X-E(X)]^2 ight}=b^2Eleft{ [X-E(X)]^2 ight} = b^2 Var(X) end{align*} ]
- 伯努利分布的方差：(Var(X) = (0-p)^2 imes (1-p) + (1-p) ^ 2 imes p = p(1-p))，在(p=1/2)处取得最大值。
- 正态分布的方差：正态分布的期望为(E(X) = mu)
  
  [Var(X) = E[(X-mu)^2] = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}(x-mu)^2expleft[-frac{1}{2}frac{(x-mu)^2}{sigma^2} ight]dx ]
  利用变量变换(z = (x-mu) / sigma)，右边变为
  
  [frac{sigma^2}{sqrt{2pi}}int_{-infty}^{infty}z^2e^{-z^2/2}dz ]
  再利用变量变换，令(u= z^2/2)，将积分化简为伽马函数，得到(Var(X) = sigma^2)
  方差的另一种计算方法：如果(X)的方差存在，它也也可以计算如下：
[Var(X) = E(X^2) - [E(X)]^2 ]
推导：记(E(X) = mu)。

[Var(X) = E[(X- mu)^2]= E(X^2 - 2mu X + mu^2) ]
利用期望的线性性质，上式变为：

[Var(X)=E(X^2)-2mu E(X) +mu^2=E(X^2) - mu ^ 2 ]
切比雪夫不等式:(Chebyshev's inequality)，方差和标准差刻画了随机变量可能取值的发散程度，切比雪夫不等式给出了量化的表述。令(X)是均值为(mu)，方差为(sigma^2)的随机变量。对任意的(t>0)，有：

[P(|X-mu|>t) leq frac{sigma^2}{t^2} ]
证明令(Y = (X - mu)^2)，那么(E(Y) = sigma^2)，由马尔科夫不等式有(P(Y geq t^2) leq frac{E(Y)}{t^2})，即得证。

上式表名，如果(sigma^2)非常小，就会有较高的概率保证(X)不会偏离(mu)太远；对于另一种解释，我们可以设定(t=ksigma)，不等式变为：

[P(|X-mu| geq ksigma) leq 1/k^2 ]
则有结论：
- (k=2)时，在((mu - 2sigma,mu + 2 sigma))范围内的概率为(75\%),范围外的概率不超过(25\%)
- (k=3)时，在((mu - 3sigma,mu + 3 sigma))范围内的概率为(8/9),范围外的概率不超过(1/9)
- (k=4)时，在((mu - 4sigma,mu + 4sigma))范围内的概率为(15/16),范围外的概率不超过(1/16)
- (k=10)时，在((mu - 10sigma,mu + 10sigma))范围内的概率为(99/100),范围外的概率不超过(1/100)
切比雪夫不等式有如下结论：如果(Var(X)=0),那么(P(X=u)=1)
证明：(反证法)。假设(P(X=mu)<1)。那么对于某个(varepsilon > 0，P(|X-mu| geq varepsilon) > 0);然而，由切比雪夫不等式，对任意(varepsilon > 0)，

[P(|X-mu| geq varepsilon) = 0 ]
测量误差模型

用(X)度量某个测量，用(x_0)记为测量的真实值，(eta)表示系统误差，是一个常数，(varepsilon)表示随机误差，(varepsilon)是一个随机变量，具有(E(varepsilon) = 0)，(Var(varepsilon)=sigma^2),那么度量(X)的模型如下:

[X = x_0 + eta + varepsilon ]
且有(E(X)=x_0+eta)，(Var(X) = sigma^2)。

(eta)常称为测量过程中的偏倚(bias)，影响误差大小的因素分别为偏倚bias和方差(sigma^2)。完美的测量(基本不存在)具有(eta=0)和(sigma^2=0)

测量误差的全部度量通常用均方误差(mean squared error)来表示，定义为：

[MSE = E[(X - x_0)^2] ]
均方误差是(X)偏离(x_0)平方的期望，按照贡献程度可以将其分解成偏差和方差。

(MSE = sigma^2 + eta^2)

证明：(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + eta^2 = sigma^2 + eta ^2)

协方差和相关

随机变量的方差是其变异性的度量，两个随机变量的协方差(covariance)是它们联合变异性的度量，或是它们关联度的度量。

协方差：如果(X)和(Y)是分别具有期望(mu_X)和(mu_Y)的随机变量，只要下述期望存在，(X)和(Y)的协方差是：

[Cov(X,Y)=E[(X-mu_X)(Y-mu_Y)] ]
协方差是(X)与其均值离差和(Y)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的，也就是当(X)大于它的均值时，(Y)也倾向于大于它的均值，协方差是正的，当两个随机变量的关联是负向的，也就是(X)大于它的均值时，(Y)却小于它的均值，协方差是负的。

通过乘积展开和期望的线性性质，我们得到协方差的另一种表达形式：

[egin{align} Cov(X,Y) &= E(XY - Xmu_Y - Ymu_X+mu_Xmu_Y) \ &=E(XY) - E(X) mu_Y-E(Y) mu X+ mu X mu Y \ &=E(XY) - E(X)E(Y) end{align} ]
特别地，如果(X)和(Y)独立，那么(E(XY)=E(X)E(Y))，(Cov(X,Y)=0)。

相关系数：correlation coefficient定义在协方差的基础上。如果(X)和(Y)的方差和协方差都存在，且方差非(0)，那么(X)和(Y)的相关系数记为( ho)，定义如下：

[ ho = frac{Cov(X,Y)}{sqrt{Var(X)Var(Y)}} ]
注意，因为定义为比值形式，相关系数无量纲。利用之前介绍的方差和协方差的性质，如果(X)和(Y)都进行线性变换，相关系数不会发生改变。因为相关系数不依赖于测量单位，因此在多数情况下，( ho)要比协方差更易于度量相关联性。

经常使用如下的记号和关系式，(X)和(Y)的标准差分别记为(sigma_X)和(sigma_Y)，它们的协方差记为(sigma_{XY}),因此有

[ ho = frac{sigma_{XY}}{sigma_Xsigma_Y} ]
[sigma_{XY} = ho sigma_X sigma_Y ]
(-1 leq ho leq 1)，进一步，( ho=pm 1)当且仅当(P(Y=a+bX)=1)，其中(a)和(b)为某个常数。

证明：因为随机变量的方差都是非负的，所以：

[egin{align} 0 &leq Var(frac{X}{sigma_X} + frac{Y}{sigma_Y}) \ &= Var(frac{X}{sigma_X}) + Var(frac{Y}{sigma_Y}) + 2Cov(frac{X}{sigma_X},frac{Y}{sigma_Y}) \ &= frac{Var(X)}{sigma_X^2} + frac{Var(Y)}{sigma_Y^2} + frac{2Cov(X,Y)}{sigma_Xsigma_Y} \ &= 2(1+ ho) end{align} ]
由上式，我们得到( ho geq -1)，类似地，根据(Var(frac{X}{sigma_X} - frac{Y}{sigma_Y}) geq 0)可得( ho leq 1)
相关阅读:
浏览器的同源策略及跨域解决方案
 前端开发工具系列
 初始Vue
form表单组件
 聚合和分组F,Q和事物,cookie,session
js循环找id
div模拟textarea文本域轻松实现高度自适应
 prototype原型
 Javascript异步编程方法
 js中map、filter用法
原文地址：https://www.cnblogs.com/evian-jeff/p/11388710.html

数据分析的统计基础3

期望与方差

随机变量的期望

随机变量函数的期望

随机变量线性组合的期望

方差和标准差

测量误差模型

协方差和相关