期望与方差
随机变量的期望
随机变量的期望的概念类似于加权平均,其所有的可能取值由他们的概率加权。
离散型随机变量的期望:如果(X)是频率函数为(p(x))的离散型随机变量,且满足(sum limits_{i}|x_I|p(x_i) < infty),则(X)的期望,记为(E(X)),是:
如果和式发散,则期望无定义。(E(X))也称为(X)的均值,通常记作(mu)或(mu_X),将其视作频率函数的质量中心有助于我们理解(X)的期望。
-
几何随机变量的期望:(E(X) = frac{1}{p})
推导:(X)是服从几何分布的随机变量,所以(P(X=k) = (1-p)^{k-1}p),则
令(1-p=q),因为(kq^{k-1}=frac{d}{dq}q^k),交换求和和微分运算的顺序,得到:
-
泊松随机变量的期望:(E(X) = lambda)
推导:
[E(X) = sum limits_{k=0}^{infty}frac{klambda^k}{k!}e^{-lambda}=lambda e^{-lambda}sum limits_{k=1}^{infty}frac{lambda^{k-1}}{(k-1)!}=lambda e^{lambda}sum limits_{j=0}^{infty}frac{lambda^j}{j!} ]因为(sum limits_{j=0}^{infty} (lambda^j/j!)=e^lambda),所以得(E(X) = lambda)。因此,泊松分布的参数(lambda)可以解释为平均数。
连续型随机变量的期望:(连续型随机变量期望的定义是离散情形的直接推广:离散和被连续积分替代) 如果(X)是密度函数为(f(x))的连续型随机变量,且满足(int |x|f(x)dx < infty),那么:
如果积分发散,那么期望无定义。(E(X))同样视为密度质量的中心。
-
伽马随机变量的期望:(E(X)= frac{alpha}{lambda})
推导:如果(X)服从参数为(alpha)和(lambda)的伽马密度,那么
[E(X)=int_{0}^{infty}frac{lambda^alpha}{Gamma(alpha)}x^alpha e^{-lambda x}dx ]一旦我们意识到(lambda^{alpha+1}x^{alpha}e^{-lambda x}/Gamma(alpha+1))是伽马密度,且全积分等于(1)。因此我们有:
[int_{0}^{infty}x^alpha e^{-lambda x}dx = frac{Gamma(alpha + 1)}{lambda ^{alpha + 1}} ]由此可得
[E(X)= frac{lambda ^ alpha}{Gamma(alpha)} left[ frac{Gamma(alpha + 1)}{lambda ^ {alpha + 1}} ight] ]最后利用(Gamma(alpha + 1) = alpha Gamma(alpha)),得到(E(X)=frac{alpha}{lambda})
对于指数密度,(alpha=1),因此(E(X)=1/lambda)。它的中位数是(log2/lambda),均值和中位数都可以视作(X)的“代表值”,但它们所度量的分布性质是不同的。
-
正态随机变量的期望:(E(X) = mu)
推导:
[E(X) = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}xe^{-frac{1}{2}frac{(x-mu)^2}{sigma^2}}dx ]利用变量变换(z=x-mu),则(dz = d(x-mu))。方程变为:
[E(X) = frac{1}{sigmasqrt{2pi}}int_{-infty}^{infty}ze^{-z^2/2sigma^2}dz+frac{mu}{sigmasqrt{2pi}}int_{-infty}^{infty}e^{-z^2/2sigma^2}dz ]上式第一个积分为奇函数,积分值为(0);第二个积分中,由于正态密度积分等于(1),所以积分值为(mu)。
期望值可以解释为长期平均。后续将证明当(n o infty)时,(ar X = sumlimits_{i=1}^{n}X_i / n o E(X))
马尔科夫不等式:如果随机变量(X)满足(P(X geq 0) = 1),且(E(X))存在,那么(P(X geq t) leq E(X)/t)
推导:(只证明离散情形,连续情形完全类似):
因为(X)只取非负值,所以上式的每一项都是非负的。因此
得证!
这个不等式告诉我们,(X)大于(E(X))的概率是较小的。假设在定理中,我们令(t = kE(X)),根据结论,有(P(X geq kE(x)) leq 1/k),无论何种概率分布,这个结论对任何非负随机变量都成立。
随机变量函数的期望
假设(Y=g(X))。
-
如果(X)是具有频率函数(p(x))的离散随机变量,且满足(sum|g(x)|p(x) < infty),那么
[E(Y) = sum limits_x g(x)p(x) ] -
如果(X)是密度函数为(f(x))的连续随机变量,且满足(int_{-infty}^{infty}|g(x)|f(x)dx < infty),那么
[E(Y) = int_{-infty}^{infty}g(x)f(x)dx ]
证明略。
随机变量线性组合的期望
期望最有用的性质是它的线性运算。
如果(Y=aX+b),那么(E(Y) = a E(X) + b),更一般地,这个性质可以推广到随机变量的线性组合。
如果(X_1,X_2,...,X_n)是具有期望(E(X_i))的联合分布随机变量,(Y)是(X_i)的线性函数,(Y = a + sum limits_{i=1}^{n}b_iX_i),那么有:
-
二项分布的期望:(E(Y) = np)
推导:(E(Y) = sum limits_{i=1}^{n} inom{n}{k}p^k(1-p)^{n-k})
和式的计算不是显而易见的。但我们可以将(Y)表示成伯努利随机变量(X_i)之和,其中根据第(i)次试验成功与否取值(1)或(0),(Y = sum limits_{i=1}^{n}X_i),因为(E(X_i)=0 imes(1-p) + 1 imes p = p),得(E(Y) = np)。
方差和标准差
随机变量的期望是它的平均值,可以视作密度或者频率函数的中心。因此,期望有时称为位置参数(location parameter)。分布的中位数也是位置参数,且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation),它描述概率分布关于中心的发散程度,度量随机变量偏离期望的平均幅度。
如果(X)是具有期望(E(X))的随机变量,只要下述期望存在,(X)的方差就是:
(X)的标准差就是方差的平方根。
-
如果(X)是频率函数为(p(x))的离散随机变量,期望值(mu = E(X)),根据定义有:
[Var(X) = sum_i (x_i - mu )^2p(x_i) ] -
如果(X)是密度函数为(f(x))的连续随机变量,期望值(mu=E(X)),那么:
[Var(X) = int_{-infty}^infty(x-mu)^2f(x)dx ]
方差通常记为(sigma^2),标准差为(sigma)。根据上面的定义,(X)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方,标准差的单位与随机变量一致。
随机变量的方差在线性变换的条件下的转换方式比较简单。
如果(Var(X))存在,(Y=aX+b),那么(Var(Y) = b^2 Var(X))
推导:因为(E(Y)=a + b E(X)),
-
伯努利分布的方差:(Var(X) = (0-p)^2 imes (1-p) + (1-p) ^ 2 imes p = p(1-p)),在(p=1/2)处取得最大值。
-
正态分布的方差:正态分布的期望为(E(X) = mu)
[Var(X) = E[(X-mu)^2] = frac{1}{sigma sqrt{2pi}}int_{-infty}^{infty}(x-mu)^2expleft[-frac{1}{2}frac{(x-mu)^2}{sigma^2} ight]dx ]利用变量变换(z = (x-mu) / sigma),右边变为
[frac{sigma^2}{sqrt{2pi}}int_{-infty}^{infty}z^2e^{-z^2/2}dz ]再利用变量变换,令(u= z^2/2),将积分化简为伽马函数,得到(Var(X) = sigma^2)
方差的另一种计算方法:如果(X)的方差存在,它也也可以计算如下:
推导:记(E(X) = mu)。
利用期望的线性性质,上式变为:
切比雪夫不等式:(Chebyshev's inequality),方差和标准差刻画了随机变量可能取值的发散程度,切比雪夫不等式给出了量化的表述。令(X)是均值为(mu),方差为(sigma^2)的随机变量。对任意的(t>0),有:
证明 令(Y = (X - mu)^2),那么(E(Y) = sigma^2),由马尔科夫不等式有(P(Y geq t^2) leq frac{E(Y)}{t^2}),即得证。
上式表名,如果(sigma^2)非常小,就会有较高的概率保证(X)不会偏离(mu)太远;对于另一种解释,我们可以设定(t=ksigma),不等式变为:
则有结论:
-
(k=2)时,在((mu - 2sigma,mu + 2 sigma))范围内的概率为(75\%),范围外的概率不超过(25\%)
-
(k=3)时,在((mu - 3sigma,mu + 3 sigma))范围内的概率为(8/9),范围外的概率不超过(1/9)
-
(k=4)时,在((mu - 4sigma,mu + 4sigma))范围内的概率为(15/16),范围外的概率不超过(1/16)
-
(k=10)时,在((mu - 10sigma,mu + 10sigma))范围内的概率为(99/100),范围外的概率不超过(1/100)
切比雪夫不等式有如下结论:如果(Var(X)=0),那么(P(X=u)=1)
证明:(反证法)。假设(P(X=mu)<1)。那么对于某个(varepsilon > 0,P(|X-mu| geq varepsilon) > 0);然而,由切比雪夫不等式,对任意(varepsilon > 0),
测量误差模型
用(X)度量某个测量,用(x_0)记为测量的真实值,(eta)表示系统误差,是一个常数,(varepsilon)表示随机误差,(varepsilon)是一个随机变量,具有(E(varepsilon) = 0),(Var(varepsilon)=sigma^2),那么度量(X)的模型如下:
且有(E(X)=x_0+eta),(Var(X) = sigma^2)。
(eta)常称为测量过程中的偏倚(bias),影响误差大小的因素分别为偏倚bias和方差(sigma^2)。完美的测量(基本不存在)具有(eta=0)和(sigma^2=0)
测量误差的全部度量通常用均方误差(mean squared error)来表示,定义为:
均方误差是(X)偏离(x_0)平方的期望,按照贡献程度可以将其分解成偏差和方差。
(MSE = sigma^2 + eta^2)
证明:(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + eta^2 = sigma^2 + eta ^2)
协方差和相关
随机变量的方差是其变异性的度量,两个随机变量的协方差(covariance)是它们联合变异性的度量,或是它们关联度的度量。
协方差:如果(X)和(Y)是分别具有期望(mu_X)和(mu_Y)的随机变量,只要下述期望存在,(X)和(Y)的协方差是:
协方差是(X)与其均值离差和(Y)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的,也就是当(X)大于它的均值时,(Y)也倾向于大于它的均值,协方差是正的,当两个随机变量的关联是负向的,也就是(X)大于它的均值时,(Y)却小于它的均值,协方差是负的。
通过乘积展开和期望的线性性质,我们得到协方差的另一种表达形式:
特别地,如果(X)和(Y)独立,那么(E(XY)=E(X)E(Y)),(Cov(X,Y)=0)。
相关系数:correlation coefficient定义在协方差的基础上。如果(X)和(Y)的方差和协方差都存在,且方差非(0),那么(X)和(Y)的相关系数记为( ho),定义如下:
注意,因为定义为比值形式,相关系数无量纲。利用之前介绍的方差和协方差的性质,如果(X)和(Y)都进行线性变换,相关系数不会发生改变。因为相关系数不依赖于测量单位,因此在多数情况下,( ho)要比协方差更易于度量相关联性。
经常使用如下的记号和关系式,(X)和(Y)的标准差分别记为(sigma_X)和(sigma_Y),它们的协方差记为(sigma_{XY}),因此有
(-1 leq ho leq 1),进一步,( ho=pm 1)当且仅当(P(Y=a+bX)=1),其中(a)和(b)为某个常数。
证明:因为随机变量的方差都是非负的,所以:
由上式,我们得到( ho geq -1),类似地,根据(Var(frac{X}{sigma_X} - frac{Y}{sigma_Y}) geq 0)可得( ho leq 1)