数据分析的统计基础2

数据分析的统计基础2
随机变量

离散型随机变量

离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量，通常用(X)表示随机变量，用(x_i)表示随机变量可能的取值。

一般地，样本空间上的概率测度决定了(X)各种取值的概率；如果随机变量的取值用(x_1,x_2,...)表示，那么存在满足(p(x_i)=P(X=x_i))和(sum limits_{i}^{}p(x_i)=1)的函数(p)，我们称这个函数为随机变量(X)的概率质量函数(probability mass function，pmf)或者频率函数(frequency function)。

除了频率函数，有时候利用随机变量的累计分布函数(cumulative distribution function，cdf)比较方便，它定义为：

[F(x) = P(X leq x) , x in (-infty,+infty) ]
- 累计分布函数是非降的，并且满足$$lim limits_{x o -infty}F(x) = 0$$ 和 (lim limits_{x o infty}F(x) = 1)
伯努利分布(Bernoulli distribution)

背景：一次试验成功与否参数:(p)

伯努利随机变量只有两个取值：0和1，各自的取值概率分别为(1-p)和(p)。因此频率函数为：

[P(X=x) = p(x) = left{egin{matrix} p, x = 1\1-p , x = 0 \ 0,elseend{matrix} ight. ]
另一种有用的表达式：(p(x) = left{ egin{matrix} p^x(1-p)^{1-x} x=0 或 1\ 0,else end{matrix} ight.)

如果(A)是一个事件，那么示性随机变量(indicator random variable)(I_A)在A发生时取1，A不发生时取0。

二项分布(Binomial distribution)

背景:(n)次独立试验，每次试验“成功”的概率是(p)，失败的概率是(1-p)。(n)次试验中成功的次数(X)是参数(n)和(p)的二项随机变量参数：(n) 和 (p)

(X=k)的概率p(k)可以通过下面的方式计算：利用乘法原理，任何(k)次成功的特定试验序列发生的概率都是(p^k(1-p)^{n-k})。因为(n)次试验有(k)次成功的排列方式有(inom{n}{k})种。因此，(P(X=k))是任意特定试验序列的概率乘以这些试验序列的个数：

[p(k) = inom{n}{k}p^k(1-p)^{n-k} ]
几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)

背景：几何分布也是由独立的伯努利试验构造而成的，但是由无穷试验序列得到。每次试验成功的概率为(p)，(X)表示直到第一次成功所做的试验次数。参数：(k) 和 (p)

(X=k)时必然有前面的(k-1)次试验失败，第(k)试验成功。利用试验的独立性，上述事件发生的概率：

[p(k) = P(X = k) = (1-p)^{k-1}p,k=1,2,3... ]
背景：负二项分布是几何分布的一般化，假设单次试验成功的概率是(p)，连续独立地试验直到成功(r)次，(X)表示试验次数参数：(n) 、(r)和(p)

我们按照如下方式计算(P(X=k)):由独立性假设，任意特定试验发生的概率是(p^r(1-p)^{k-r})。最后一次试验结果是成功的，剩余的(r-1)次成功出现在剩余的(k-1)试验中，因此，

[P(X=k) = inom{k-1}{r-1}p^r(1-p)^{k-r} ]
超几何分布(Hypergeometric distribution)

背景：盒中(n)个球，其中(r)个黑球，(n-r)个白球。从盒子中无重复的抽取(m)个球，抽到黑球的个数。(X)是参数为(r、n)和(m)的超几何随机变量。

[P(X=k)= frac{ inom{r}{k} inom{n-r}{m-k}}{inom{n}{m}} ]
泊松分布(Poisson distribution)

参数为(lambda(lambda > 0))的泊松频率函数(Poisson frequency function)是

[P(X=k) = frac{lambda^ke^{-lambda}}{k!}，k=0,1,2,... ]
因为(e^lambda = sum limits_{k=0}^{infty}(lambda^k/k!))，所以频率之和为1。

当试验次数(n)趋于(infty)，试验成功概率(p)趋于(0)，且满足(np=lambda)时，泊松分布可由二项分布的极限得到。

证明：二项频率函数是：

[P(X=k)=p(k)=inom{n}{k}p^k(1-p)^{n-k}=frac{n!}{(n-k)!k!}p^k(1-p)^{n-k} ]
设(np=lambda)，上式转换为：

[egin{align} p(k)&=frac{n!}{(n-k)!k!}left(frac{lambda}{n} ight)^kleft(1-frac{lambda}{n} ight)^{n-k}\ &= frac{lambda^k}{k!}frac{n!}{(n-k)!k!}frac{1}{n^k}left( 1-frac{lambda}{n} ight)^nleft( 1-frac{lambda}{n} ight)^{-k}\ end{align} ]
当(n o infty)时，

[frac{lambda}{n} o 0 ，frac{n!}{(n-k)!n^k} o 1，left(1- frac{lambda}{n} ight)^n o e^{-lambda}，left(1-frac{lambda}{n} ight)^{-k} o 1 ]
因此我们有

[p(k) o frac{lambda^k e^{-lambda}}{k!} ]
连续性随机变量

对于连续随机变量，频率函数的角色被密度函数(density function)(f(x))取代，它具有如下性质：(f(x) geq 0)，(f)分段连续且(int_{-infty}^{infty}f(x)dx = 1)。如果(X)是具有密度函数(f)的随机变量，那么对于任意的(a<b)，(X)落在区间((a,b))上概率是密度函数从(a)到(b)的下方面积：

[P(a<X<b) = int_{a}^{b}f(x)dx ]
连续随机变量(X)的累积分布函数的定义方式与离散型一样：

[egin{align} F(x) &= P(X leq x) \ &= int_{-infty}^{x}f(u)du end{align} ]
cdf可以用来估计(X)落入一个区间内的概率：

[P(a leq X leq b ) = int_{a}^{b}f(x)dx = F(b) - F(a) ]
假设(F)是连续随机变量的cdf，在某区间(I)上是严格增的，因此在(I)的左端点处(F=0)，右端点处(F = 1)，(I)可能是无界的。在这个假设下，逆函数(F^{-1})存在，如果(y = F(x))，那么(x=F^{-1}(y))。分布(F)的第(p)分位数(quantile)定义为满足(F(x_p) = p)或(P(X leq x_p) = p)的(x_p)值。特别地，当(p=frac{1}{2})，这相对应于(F)的中位数(median)，(p=frac{1}{4})和(p=frac{3}{4})相对应于(F)的下、上四分之一分位数。

均匀分布

区间([0,1])上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果，概率模型应该满足落入任何长度(h)的子区间内的概率是(h)。下面的密度函数满足该要求：

[f(x) =left{ egin{matrix} 1， 0 leq x leq 1\ 0,x < 0 或 x > 1 end{matrix} ight. ]
这个密度函数称为([0,1])上的均匀密度(uniform density)。一般区间([a,b])上的均匀密度是：

[f(x) =left{ egin{matrix} frac{1}{b-a}， a leq x leq b\ 0,x < a 或 x > b end{matrix} ight. ]
这种定义的一个结果是连续随机变量(X)取特定值的概率为(0):

[P(X=c)=int_{c}^{c}f(x)dx = 0 ]
对于连续随机变量，那么(P(a<X<b) = P(a leq X < b) = P(a < X leq b))。注意此事对离散随机变量，上式可能不对。

指数分布

指数密度函数是((lambda)越大,密度下降地越快)

[f(x) =left{ egin{matrix} lambda e^{- lambda x}，x geq 0 \ 0,x < 0 end{matrix} ight. ]
指数分布的累积分布函数为：

[F(x) = int_{-infty}^{x}f(u)du = left{ egin{matrix} 1-e^{-lambda x} ， x geq 0 \ 0, x < 0 end{matrix} ight. ]
指数分布常用来刻画生命周期或者等待时间，这是一般用(t)代替(x)。假设我们考虑用指数随机变量来刻画电子元件的寿命，且元件已经生存时长(s)，我们计算它至少能再存活(t)个时间单位的概率，也即计算(P(T > t+s | T > s))：

[egin{align*} P(T>t+s|T>s) &= frac{P(T>t+s cap T>s)}{P(T>s)} \ &= frac{P(T>t+s)}{P(T>s)} \ &= frac{1 - F(t+s)}{1-F(s)} \ &= frac{e^{-lambda(t+s)}}{e^{-lambda s}} \ &= e^{-lambda t} end{align*} ]
我们看到元件至少能再存活(t)个时间单位的概率不依赖于(s)。因此，指数分布被认为是无记忆性(memoryless)。

伽马分布

伽马密度函数依赖于两个参数----(alpha)和(lambda)：

[g(t) =left{ egin{matrix} frac {lambda ^ alpha}{Gamma(alpha)} t^{alpha-1}e^{-lambda t}，t geq 0 \ 0， t leq 0 end{matrix} ight. ]
因此，密度函数在(alpha > 0)，(lambda > 0)上定义完好，全积分等于1。伽马函数(Gamma(x))定义为：

[Gamma(x) = int_{0}^{infty}u^{x-1}e^{-u}du，x > 0 ]
注意，如果(alpha = 1)，伽马密度等价于指数密度，参数(alpha)称为形状参数(shape parameter)，参数称为尺度参数(scale parameter)。变动(alpha)改变密度的形状，而变动(lambda)仅改变测量单位(比方说，从秒到分钟)，不影响密度的形状。

正态分布

正态分布在概率论和数理统计中扮演者重要的角色，Carl Friedrich Gauss在测量误差模型时提出这个分布，因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说，中心极限定理是说如果一个随机变量是许多独立随机变量之和，那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数，即(mu)和(sigma)，其中(mu in (-infty,infty)) ，(sigma > 0)。

[f(x) = frac{1}{sigma sqrt{2pi}} e^{-(x-u)^2/2sigma ^ 2}， -infty leq x leq infty ]
参数(mu)和(sigma)分别称为正态密度的均值(mean)和标准差(standard deviation)，简记为$X (服从)N(mu,sigma^2)$

由密度函数的形状可以看出密度关于(mu)对称，(f(mu-x) = f(mu + x))，它有一个最大值，且此处下降的速率依赖于(sigma)，正态密度有时称为钟形曲线，(mu = 0)，(sigma = 1)的特殊形式称为标准正态密度。它的cdf记为$Phi (，密度为)phi $

贝塔分布

贝塔密度用来刻画([0,1])区间上的随机变量：

[f(u) = frac{Gamma(a+b)}{Gamma(a)Gamma(b)}u^{a-1}(1-u)^{b-1} ，0 leq u leq 1 ]
随机变量的函数

背景：假设随机变量(X)有密度函数(f(x)),对于某一给定的函数(g)，我们经常需要计算(Y=g(X))的密度函数。通常，将(X)的密度和cdf记为(f_X)和(F_X);(Y)的密度和cdf记为(f_Y)和(F_Y)。

假设(X)~(N(mu,sigma^2))，(Y=aX+b)，其中$a > 0 (。)Y$的累积分布函数是：

[F_Y(y) = P(Y leq y) = P(aX+b leq y) = P(X leq frac{y-b}{a}) = F_X(frac{y-b}{a}) ]
因此，

[f_Y(y) = frac{d}{dy}F_x(frac{y-b}{a}) = frac{1}{a}f_X(frac{y-b}{a}) ]
因为(f_x)是参数为(mu)和(sigma)的正态密度函数，替代上式后，我们得到：

[f_Y(y) =frac{1}{asigmasqrt{2pi}} exp {left [ -frac{1}{2}left( frac{y-b-amu}{asigma} ight) ^ 2 ight ]} ]
由此，我们看到(Y)服从参数为(amu+b)和(asigma)的正态分布。

其实，a<0时，上面结论依然成立。

命题：如果(X)~(N(mu,sigma^2))，(Y=aX+b)，那么(Y) ~(N(amu+b,a^2sigma^2))

此结论对于使用正态分布计算概率十分有用。假设(X)~(N(mu,sigma^2))，对某些数值(x_0)和(x_1)，我们希望得到(P(x_0 < X < x_1))，考虑随机变量：

[Z = frac{X - mu}{sigma} = frac{1}{sigma}X-frac{mu}{sigma} ]
那么(Z)~(N(0,1))，即(Z)服从标准正态分布，因此：

[F_X(x) = P(X leq x) = P(frac{X-mu}{sigma} leq frac{x-mu}{sigma})=P(Z leq frac{x-mu}{sigma}) = Phi(frac{x-mu}{sigma}) ]
因此，我们有

[P(x_0 leq X leq x_1) = F_X(x_1)-F_X(x_0)=Phi(frac{x_1-mu}{sigma})-Phi(frac{x_0-mu}{sigma}) ]
因此，我们有以下结论：

若(X)~(N(mu,sigma^2))，则(X)偏离(mu)的值小于(sigma 、 2sigma、3sigma)的概率分别为：
- (P(-sigma < X - mu < sigma) = P(-1 < frac{X-mu}{sigma} < 1) = P(-1 < Z < 1) = Phi(1) - Phi(-1) =0.68)
- (P(-2sigma < X - mu < 2sigma) = P(-2 < frac{X-mu}{sigma} < 2) = P(-2 < Z < 2) = Phi(2) - Phi(-2) =0.95)
- (P(-3sigma < X - mu < 3sigma) = P(-3 < frac{X-mu}{sigma} < 3) = P(-3 < Z < 3) = Phi(3) - Phi(-3) =0.997)
计算(X=Z^2)的密度，其中(Z)~(N(0,1))。

[F_X(x) = P(X leq x)=P(-sqrt{x} leq Z leq sqrt{x})=Phi(sqrt{x})-Phi(-sqrt{x}) ]
我们通过cdf的微分找到(X)的密度，因为(Phi'(x) = phi(x))，利用链式法则求解得到：

[f_X(x) = frac{1}{2}x^{-1/2}phi(sqrt{x}) + 1/2x^{-1/2}phi(sqrt{x})=x^{-1/2}phi(x) ]
最后一步利用了(phi)的对称性。由最后的表达式我们得到：

[f_X(x) = frac{x^{-1/2}}{sqrt{2pi}}e^{-x/2}，x geq 0 ]
利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式(k_1h(x))和(k_2h(x))，由于他们的积分都是(1),所以(k_1=k_2)。现在，与(alpha = lambda = 1/2)的伽马密度相比，我们可以得到这里的(f(x))是伽马密度，(Gamma(frac{1}{2}）=sqrt{pi})。这个密度又称为自由度(degree of freedom)为(1)的卡方密度(chi-square density)
相关阅读:
XSS漏洞攻击
 String 是值类型还是引用类型
 客户端验证不能代表服务器端验证
 PowerDesigner参照（Reference）笔记
 LazyAllocate(缓分配)与PreAllocate(预分配)
我在delphi7下调用微软的Web Services的心得.(可以返回数据集)
C Dungeon Master
TimeQuest笔记
 XPStyle Button
对XML文件的CRUD(添加,读取,搜索,修改,删除)的例子
原文地址：https://www.cnblogs.com/evian-jeff/p/11386384.html

数据分析的统计基础2

随机变量

离散型随机变量

伯努利分布(Bernoulli distribution)

二项分布(Binomial distribution)

几何分布(Geometric distribution)和负二项分布(Negative binomial distribution)

超几何分布(Hypergeometric distribution)

泊松分布(Poisson distribution)

连续性随机变量

均匀分布

指数分布

伽马分布

正态分布

贝塔分布

随机变量的函数