随机变量和期望
%虞神犇%
对每个随机实验,都会有若干个基本事件,它们共同组成了样本空间(Omega)。可是基本事件不一定是数字,不方便我们分析,所以就有了随机变量。在(Omega)上的随机变量X是一实值函数,满足对任意一个基本事件,均有唯一确定的随机变量取值对应。设有事件(omega),那么它的取值是(X(omega)),简写为(x_i),在这个取值下它的概率是(p(x_i)=p_i)(注意概率),随机变量X的期望则是(E(X)=sum{X(omega_i)}{P(omega_i)}=sum x_ip_i)。随机变量分为离散型和连续型,离散型随机变量就是可以一一列举基本事件取值的随机变量。以下讨论的均是离散型随机变量。
离散型随机变量X的“概率分布”,表示X的所有基本事件的概率的分布,我们也可以说X服从什么分布。如果随机变量X的取值只有0和1,且(p(X=1)=p),则称X服从成功率为p的两点分布(意思就是说概率的取值只有两个,其中一个为p,另外一个为1-p)。该实验为成功率为p的伯努利实验。
若随机变量X满足:在独立重复的伯努利试验中,前k-1次失败,第k次成功,X的取值为k,则称X服从成功率p的几何分布。也就是说X表示伯努利实验的成功次数,那么E(X)就是成功的期望试验次数。显然(p(X=m)=pq^{m-1}),所以(E(X)=sum_{i=1}^{infty}ip(X=i)=p(sum_{i=1}^{infty}iq^{i-1})=pfrac{1}{(1-q)^2}=frac{1}{p})。于是我们得到了一个定理:若随机变量X服从成功率为p的几何分布,则(E(X)=p^{-1})。因为那为什么它叫做几何分布呢?因为X的取值的概率是一个等比数列,而等比数列又叫做几何数列,因为每项都是前后两项的几何平均数(也就是面积相同的长方形和正方形)
形象的理解一下(from虞大),如果你每天有(frac{1}{10})的概率ak,那么你差不多10天就能ak一次。
来看一道题目。你要生成一个长度为n的排列,算法是这样的:随机一个1到n之间的整数,如果没有出现过就加到排列当中,否则再次随机数。问你生成一个排列的期望随机次数。我们发现生成第i个数的期望(E(X_i))服从成功率为(frac{n-i}{n})的几何分布,期望即为(frac{n}{n-1})。那么由期望的线性性质(这是后面的内容),可以得总期望(E(X)=sum_{i=1}^{n}frac{n}{n-i+1}),然后调和级数算算就出来了(我也不会算)。
还有一个分布叫做二项分布,如果随机变量X满足,在n次独立重复的伯努利实验中,X的取值为n次试验中成功的次数,则称X为服从成功率p的二项分布。为什么叫做二项分布呢,因为对于随机变量X,由组合计数,有(p(X=k)=(^n_k)p^kq^{n-k}),(q=1-p),二项式展开以后也有((^n_k))这个东西。
再理一遍概念。随机变量是指这样的X:X有若干个取值x,每个取值有一个概率p(x)。它的期望就是所有x和p(x)的乘积之和。你或许可以把它看成一个坐标轴,x轴表示随机变量的取值,y轴表示概率的取值,那么X就代表若干个坐标轴上的点,X的期望就是每个点的x轴取值*y轴取值,再加起来。
如果还没理解的话,画个表格也许能帮助理解离散型随机变量的期望:
(Omega)(样本空间) | (p(omega))(样本概率) | (X(omega))(随机变量取值) | (p(omega)X(omega))(带权概率) |
---|---|---|---|
(omega_1)(基本事件) | (p(omega_1)=p_1) | (X(omega_1)=x_1) | (p_1x_1) |
(omega_2) | (p_2) | (x_2) | (p_2x_2) |
…… | …… | …… | …… |
(omega_n) | (p_n) | (x_n) | (p_nx_n) |
(sum=1) | (sum=E(X)) |
我们来考虑期望的性质。现在有两个随机变量X和Y,基于同样的事件集合和事件概率。那么显然,(E(X)+E(Y)=sum{p_ix_i+p_iy_i}=E(X+Y))。因此期望满足可加性。
期望满不满足可乘性呢?(E(X=x)*E(Y=y)=x*y*p(x)*p(y))并不等于(x*y*p(x*y)),除非两个随机变量是独立的。但是,显然(E(ax)=aE(x))。所以期望是满足线性性的。