随机变量
离散型随机变量
离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量,通常用(X)表示随机变量,用(x_i)表示随机变量可能的取值。
一般地,样本空间上的概率测度决定了(X)各种取值的概率;如果随机变量的取值用(x_1,x_2,...)表示,那么存在满足(p(x_i)=P(X=x_i))和(sum limits_{i}^{}p(x_i)=1)的函数(p),我们称这个函数为随机变量(X)的概率质量函数(probability mass function,pmf)或者频率函数(frequency function)。
除了频率函数,有时候利用随机变量的累计分布函数(cumulative distribution function,cdf)比较方便,它定义为:
- 累计分布函数是非降的,并且满足$$lim limits_{x o -infty}F(x) = 0$$ 和 (lim limits_{x o infty}F(x) = 1)
伯努利分布(Bernoulli distribution)
背景:一次试验成功与否 参数:(p)
伯努利随机变量只有两个取值:0和1,各自的取值概率分别为(1-p)和(p)。因此频率函数为:
另一种有用的表达式:(p(x) = left{ egin{matrix} p^x(1-p)^{1-x} x=0 或 1\ 0,else end{matrix} ight.)
如果(A)是一个事件,那么示性随机变量(indicator random variable)(I_A)在A发生时取1,A不发生时取0。
二项分布(Binomial distribution)
背景:(n)次独立试验,每次试验“成功”的概率是(p),失败的概率是(1-p)。(n)次试验中成功的次数(X)是参数(n)和(p)的二项随机变量 参数:(n) 和 (p)
(X=k)的概率p(k)可以通过下面的方式计算:利用乘法原理,任何(k)次成功的特定试验序列发生的概率都是(p^k(1-p)^{n-k})。因为(n)次试验有(k)次成功的排列方式有(inom{n}{k})种。因此,(P(X=k))是任意特定试验序列的概率乘以这些试验序列的个数:
几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)
背景:几何分布也是由独立的伯努利试验构造而成的,但是由无穷试验序列得到。每次试验成功的概率为(p),(X)表示直到第一次成功所做的试验次数。参数:(k) 和 (p)
(X=k)时必然有前面的(k-1)次试验失败,第(k)试验成功。利用试验的独立性,上述事件发生的概率:
背景:负二项分布是几何分布的一般化,假设单次试验成功的概率是(p),连续独立地试验直到成功(r)次,(X)表示试验次数 参数:(n) 、(r)和(p)
我们按照如下方式计算(P(X=k)):由独立性假设,任意特定试验发生的概率是(p^r(1-p)^{k-r})。最后一次试验结果是成功的,剩余的(r-1)次成功出现在剩余的(k-1)试验中,因此,
超几何分布(Hypergeometric distribution)
背景:盒中(n)个球,其中(r)个黑球,(n-r)个白球。从盒子中无重复的抽取(m)个球,抽到黑球的个数。(X)是参数为(r、n)和(m)的超几何随机变量。
泊松分布(Poisson distribution)
参数为(lambda(lambda > 0))的泊松频率函数(Poisson frequency function)是
因为(e^lambda = sum limits_{k=0}^{infty}(lambda^k/k!)),所以频率之和为1。
当试验次数(n)趋于(infty),试验成功概率(p)趋于(0),且满足(np=lambda)时,泊松分布可由二项分布的极限得到。
证明:二项频率函数是:
设(np=lambda),上式转换为:
当(n o infty)时,
因此我们有
连续性随机变量
对于连续随机变量,频率函数的角色被密度函数(density function)(f(x))取代,它具有如下性质:(f(x) geq 0),(f)分段连续且(int_{-infty}^{infty}f(x)dx = 1)。如果(X)是具有密度函数(f)的随机变量,那么对于任意的(a<b),(X)落在区间((a,b))上概率是密度函数从(a)到(b)的下方面积:
连续随机变量(X)的累积分布函数的定义方式与离散型一样:
cdf可以用来估计(X)落入一个区间内的概率:
假设(F)是连续随机变量的cdf,在某区间(I)上是严格增的,因此在(I)的左端点处(F=0),右端点处(F = 1),(I)可能是无界的。在这个假设下,逆函数(F^{-1})存在,如果(y = F(x)),那么(x=F^{-1}(y))。分布(F)的第(p)分位数(quantile)定义为满足(F(x_p) = p)或(P(X leq x_p) = p)的(x_p)值。特别地,当(p=frac{1}{2}),这相对应于(F)的中位数(median),(p=frac{1}{4})和(p=frac{3}{4})相对应于(F)的下、上四分之一分位数。
均匀分布
区间([0,1])上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果,概率模型应该满足落入任何长度(h)的子区间内的概率是(h)。下面的密度函数满足该要求:
这个密度函数称为([0,1])上的均匀密度(uniform density)。一般区间([a,b])上的均匀密度是:
这种定义的一个结果是连续随机变量(X)取特定值的概率为(0):
对于连续随机变量,那么(P(a<X<b) = P(a leq X < b) = P(a < X leq b))。注意此事对离散随机变量,上式可能不对。
指数分布
指数密度函数是((lambda)越大,密度下降地越快)
指数分布的累积分布函数为:
指数分布常用来刻画生命周期或者等待时间,这是一般用(t)代替(x)。假设我们考虑用指数随机变量来刻画电子元件的寿命,且元件已经生存时长(s),我们计算它至少能再存活(t)个时间单位的概率,也即计算(P(T > t+s | T > s)):
我们看到元件至少能再存活(t)个时间单位的概率不依赖于(s)。因此,指数分布被认为是无记忆性(memoryless)。
伽马分布
伽马密度函数依赖于两个参数----(alpha)和(lambda):
因此,密度函数在(alpha > 0),(lambda > 0)上定义完好,全积分等于1。伽马函数(Gamma(x))定义为:
注意,如果(alpha = 1),伽马密度等价于指数密度,参数(alpha)称为形状参数(shape parameter),参数称为尺度参数(scale parameter)。变动(alpha)改变密度的形状,而变动(lambda)仅改变测量单位(比方说,从秒到分钟),不影响密度的形状。
正态分布
正态分布在概率论和数理统计中扮演者重要的角色,Carl Friedrich Gauss在测量误差模型时提出这个分布,因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说,中心极限定理是说如果一个随机变量是许多独立随机变量之和,那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数,即(mu)和(sigma),其中(mu in (-infty,infty)) ,(sigma > 0)。
参数(mu)和(sigma)分别称为正态密度的均值(mean)和标准差(standard deviation),简记为$X (服从)N(mu,sigma^2)$
由密度函数的形状可以看出密度关于(mu)对称,(f(mu-x) = f(mu + x)),它有一个最大值,且此处下降的速率依赖于(sigma),正态密度有时称为钟形曲线,(mu = 0),(sigma = 1)的特殊形式称为标准正态密度。它的cdf记为$Phi (,密度为)phi $
贝塔分布
贝塔密度用来刻画([0,1])区间上的随机变量:
随机变量的函数
背景:假设随机变量(X)有密度函数(f(x)),对于某一给定的函数(g),我们经常需要计算(Y=g(X))的密度函数。通常,将(X)的密度和cdf记为(f_X)和(F_X);(Y)的密度和cdf记为(f_Y)和(F_Y)。
假设(X)~(N(mu,sigma^2)),(Y=aX+b),其中$a > 0 (。)Y$的累积分布函数是:
因此,
因为(f_x)是参数为(mu)和(sigma)的正态密度函数,替代上式后,我们得到:
由此,我们看到(Y)服从参数为(amu+b)和(asigma)的正态分布。
其实,a<0时,上面结论依然成立。
命题:如果(X)~(N(mu,sigma^2)),(Y=aX+b),那么(Y) ~(N(amu+b,a^2sigma^2))
此结论对于使用正态分布计算概率十分有用。假设(X)~(N(mu,sigma^2)),对某些数值(x_0)和(x_1),我们希望得到(P(x_0 < X < x_1)),考虑随机变量:
那么(Z)~(N(0,1)),即(Z)服从标准正态分布,因此:
因此,我们有
因此,我们有以下结论:
若(X)~(N(mu,sigma^2)),则(X)偏离(mu)的值小于(sigma 、 2sigma、3sigma)的概率分别为:
- (P(-sigma < X - mu < sigma) = P(-1 < frac{X-mu}{sigma} < 1) = P(-1 < Z < 1) = Phi(1) - Phi(-1) =0.68)
- (P(-2sigma < X - mu < 2sigma) = P(-2 < frac{X-mu}{sigma} < 2) = P(-2 < Z < 2) = Phi(2) - Phi(-2) =0.95)
- (P(-3sigma < X - mu < 3sigma) = P(-3 < frac{X-mu}{sigma} < 3) = P(-3 < Z < 3) = Phi(3) - Phi(-3) =0.997)
计算(X=Z^2)的密度,其中(Z)~(N(0,1))。
我们通过cdf的微分找到(X)的密度,因为(Phi'(x) = phi(x)),利用链式法则求解得到:
最后一步利用了(phi)的对称性。由最后的表达式我们得到:
利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式(k_1h(x))和(k_2h(x)),由于他们的积分都是(1),所以(k_1=k_2)。现在,与(alpha = lambda = 1/2)的伽马密度相比,我们可以得到这里的(f(x))是伽马密度,(Gamma(frac{1}{2})=sqrt{pi})。这个密度又称为自由度(degree of freedom)为(1)的卡方密度(chi-square density)