一维随机变量及其概率分布

一维随机变量及其概率分布

1. 随机变量的概念

顾名思义，随机变量就是“其值随机会而定”的变量。随机变量的反面是“确定性变量”，即其值遵循某种严格的规律的变量，比如从北京到上海的距离。但是从绝对意义上讲，许多通常视为确定性变量的量，本质上都有随机性，只是由于随机性干扰不大，以至在所要求的精度之内，不妨把经作为确定性变量来处理。

根据随机变量其可能取的值的全体的性质，可以把随机变量分为2大类，一类是离散型随机变量，比如检验100件产品中的次品个数；一类是连续型随机变量，比如一个灯泡的寿命。但是连续型变量这个概念只是数学上的抽象，因为任何量都有单位，都只能在该单位下量到一定的精度，所以也一定是离散的，比如灯泡的寿命如果只精确到秒，那它的寿命也是可以离散表示的。

研究随机变量的根本原因是，我们需要研究一些事物身上表现出来的会变动的因子，这些因子的值随机而定，但可能存在某种规律（比如总是取到某些特殊的值），我们需要研究这些规律（比如分布规律），而对这些因子做预测。

2. 离散型随机变量的分布

我们研究随机变量，并不是只关心它能取到哪些值，往往也关心的是它取到某些值的频率如何，即取到该值的概率。这个特性，我们称之为分布。

定义2.1

设 $X$ 为离散型随机变量，其全部的可能值为 ${a_{1}, a_{2}, \dots}$ ，则
$p i = P (X = a i), i = 1, 2, \dots$

称为 $X$ 的概率函数。且有下面的性质：
$p i ⩾ 0, p 1 + p 2 + \dots = 1$

$X$ 的概率函数给出了：全部概率1是如何在其可能的值之间分配的，所以也把它称为随机变量 $X$ 的“概率分布”。因为离散型的随机变量的概率分布通常以一个表的形式给出，所以有时把它称为 $X$ 的分布表。
$可能值概率 a 1 p 1 a 2 p 2 \dots \dots a i p i \dots \dots$

定义2.2

设 $X$ 为一随机变量，则函数
$P (X \leq x) = F (x), - \infty < x < \infty$

称为 $X$ 的分布函数。

对离散型随机变量而言，概率函数与分布函数在下述意义下是等价的。
$F (x) = P (X \leq x) = \sum {i : a i \leq x} p i$

由 $p_{i}$ 求 $F (x)$ 是显然的，而由 $F (x)$ 求 $p_{i}$ ，只需注意：
$F (i) = P (X \leq i) = P (X \leq i - 1) + P (X = i)$

对于任何随机变量 $X$ ，其分布函数 $F (x)$ 具有下面的一般性质：

1） $F (x)$ 是单降非降的：当 $(x_{1} < x_{2})$ 时，有 $F (x_{1}) \leq F (x_{2})$ ；

2）当 $x \to \infty$ 时， $F (x) \to 1$ ；当 $x \to - \infty$ 时， $F (x) \to 0$ ；

研究分布函数的直接原因是可以根据分布函数求概率，另一个原因我觉得是针对于连续型随机变量，因为它研究取某个值的概率没有意义，所以更多的关心的一个范围，比哪灯光寿命1万小时-1.2万小时的可能性大小，像这样范围内的概率用分布函数更容易求得。

3. 几个常见的离散型分布

3.1. 二项分布

某事件 $A$ 在一次试验中发生的概率为 $p$ 。现在把这个试验独立重复 $n$ 次，以 $X$ 记 $A$ 在这 $n$ 次试验中发生的次数，则 $n$ 可能的取值为 $0, 1, \dots, n$ ，我们称随机变量 $X$ 服从二项分布，记为： $X \sim B (n, p)$ ，同时这种试验称为伯努利试验。
$p i = b (i; n, p) = (n i) p i (1 - p) n - i, i = 0, 1, \dots, n$

$X = k$ 表示 $n$ 次试验中，事件 $A$ 恰好发生了 $k$ 次，那么一共有 $(\binom{n}{k})$ 种途径，而且每种途径发生的概率都为 $p^{k} (1 - p)^{n - k}$ （加法公式）。

在研究连续型随机变量分布后，我们发现二项分布概率分布与高斯分布密度函数曲线一致。

3.2. 泊松分布

若随机变量 $X$ 可能的取值为 $0, 1, 2, \dots$ ，且概率分布为
$P (X = i) = e - λ λ i / i!$

则称 $X$ 服从泊松分布，记为 $X \sim P (λ)$ ，此处 $λ > 0$ 是一常数。

Poisson分布是用来描述稀有事件的概率的，比如：一定时间内红绿灯口发生事故的次数和总机接到电话的次数。

Poisson分布实际上是在 $n$ 很大， $p$ 很小时，二项分布的一个近似：

当 $p$ 很小时， $(1 - p) \sim e^{- p}$ [泰勒展开，取前2项]，所以 $(1 - p)^{n - k} \sim e^{- p (n - k)} \sim e^{- p n} = e^{- λ}$

当 $n$ 很大时， $b_{n, k} = \frac{n (n - 1) \dots (n - k + 1)}{k!} p^{k} (1 - p)^{n - k} \approx \frac{n^{k} p^{k}}{k!} (1 - p)^{n - k} = \frac{λ^{k}}{k!} e^{- λ}$

3.3. 超几何分布

设有N个产品，其中有M个不合格品，若从中不放回地随机抽取 $n$ 个，则其中含有的不合格品的个数 $X$ 服从超几何分布，记为 $X \sim h (n, N, M)$ ，超几何分布的概率分布列为：
$P (X = k) = ( M k ) ( N - M n - k ) ( N n ), k = 0, 1, \dots, r$

其中 $r = m i n {M, n}$ ，且 $M \leq N, n \leq N, n, N, M 均为正整数$

当 $n ≫ N$ 时，即抽取个数 $n$ 远小于产品总数N时，每次抽取后体中的不合格率 $p = M / N$ 改变甚微，所以不放回抽样，可以近似地看成回抽样，这里超几何分布可以用二项分布近似。
$( M k ) ( N - M n - k ) ( N n ) ≅ (n k) p k (1 - p) n - k ，其中 p = M N$

3.4. 几何分布

在伯努利试验序列中，记每次试验中事件 $A$ 发生的概率为 $p$ ，如果 $X$ 为事件 $A$ 首次出现时的试验次数，则 $X$ 可能取值为 $1, 2, \dots$ ，称 $X$ 服从几何分布，记为 $X \sim G e (p)$ ，其分布列为：
$P (X = k) = (1 - p) k - 1 p, k = 1, 2, \dots$

几何分布的无记忆性：设 $X \sim G e (p)$ ，则对任意正整数m与n有
$P (X > m + n | X > m) = P (X > n)$

上面这个公式表明在一系列的事件中，若前m次实验中事件A没有出现，则接下来的n次试验中A仍未出现的概率只与n有关，似乎忘记了前m次试验结果。

3.5. 负二项分布

在伯努利试验序列中，记每次试验中事件A发生的概率为 $p$ ，如果 $X$ 为事件 $A$ 第r次出现时的试验次数，则 $X$ 可能的取值为 $r, r + 1, \dots, r + m, \dots$ ，称 $X$ 服从负二项分布或巴斯卡分布，记为 $X \sim N b (r, p)$ ，概率分布为：
$P (X = k) = (k - 1 r - 1) p r (1 - p) k - r, k = r, r + 1, \dots$

4. 连续型随机变量分布

对于连续型变量的概率分布，不能用像离散型变量那种方法去描述。原因在于，这种变量的取值充满一个区间，无法一一排出。若指定一个值 $a$ ，则变量 $X$ 恰好是 $a$ 一丝不差，事实上不可能，即，对于连续型随机变量 $X$ 而言，在区间内任意一点的概率 $P (X = x_{i}) = 0$ ，但是你要注意虽然概率为0，但是并不是说事件 $X = x_{i}$ 是不可能事件。

刻画连续型随机变量的概率分布的一个方法是利用概率分布函数，但是在理论和实用上更方便因则更常用的方法，是使用所谓“概率密度函数”或简称密度函数。

定义4.1

设连续性随机变量X有概率分布函数 $F (x)$ ，则 $F (x)$ 的层数 $f (x) = F^{'} (x)$ ,称为X的概率密度函数。

连续型随机变量 $X$ 的密度函数 $f (x)$ 都具有以下三条基本性质：

1） $f (x) \geq 0$

2） $\int_{- \infty}^{\infty} f (x) d x = 1$

3）对任何常数 $a < b$ 有 $P (a \leq X \leq b) = F (b) - F (a) = \int_{a}^{b} (x) d x$

4.1. 正态分布

由中心极限定理可知：

一个变量如果是由大量微小的、独立的随机因素的叠加结果，那么这个变量一定是正态变量。因此很多随机变量可以用正态分布描述或近似描述，譬如测量误差、产品重量、人的身高、年降雨量等。

若随机变量 $X$ 的密度函数为

$p (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}, - \infty < x < + \infty$

称 $X$ 服从正态分布或高斯分布。

当 $μ = 1, σ^{2} = 1$ 时，上面的概率密度函数变为
$f (x) = e - x 2 / 2 / 2 π - - \sqrt$

它是正态分布 $N (0, 1)$ 的密度函数。同时被称为标准正态分布，其密度函数与分布函数通常分别被记为 $φ (x)$ 和 $Φ (x)$ 。标准正态分布很重要，因为任意的正态分布 $N (μ, σ^{2})$ 的计算很容易转化为标准正态分布 $N (0, 1)$ 。

若 $X \sim N (μ, σ^{2})$ ，则 $Y = (X - μ) / σ \sim N (0, 1)$

4.2. 均匀分布

若随机变量 $X$ 的密度函数为
$p (x) = {1 b - a, 0, a < x < b; 其他。$

则称 $X$ 服从区间 $(a, b)$ 上的均匀分布，记作 $X \sim U (a, b)$

4.3. 指数分布

若随机变量 $X$ 的密度函数为
$p (x) = {λ e - λ x, 0, x \geq 0; x < 0 。$

则称 $X$ 服从指数分布，记作 $X \sim E x p (λ)$

下图显示了指数分布当 $λ = 1$ （虚线）和 $λ = 2$ （实线）时的曲线图。 $f (x)$ 在 $x = 0$ 处不连续。

因为指数分布随机变量只可能取非负实数，所以指数分布被用作各种“寿命”分布，譬如电子元件的寿命，动物的寿命等。
$P (x \leq X \leq x + h) | X > x) / h = λ, h \to 0$

上式表明，如果元件在 $x$ 时尚表现正常，则的 $X > x$ 时间内失效率为一个常数 $λ$ ，也就是说元件在任意时刻突然失效的概率跟它使用了多久没有关系，只与失效率 $l a m b d a$ 有关。根据后面期望计算得到 $λ^{-} 1$ 就是平均寿命。

指数分布描述的是一种无老化的寿命分布，在实际中是不可能的，因而只是一种近似。对一种元器件在使用初期老化现象很小，所以在这个阶段指数分布描述了其寿命分布情况。而人在50或60岁之前，生理老化而死亡的因素是次要的。排除那些意外情况，人的寿命在这个阶段也是接近指数分布的。

4.4. 威布尔分布

指数分布在寿命问题上忽略了老化问题，如果我们需要考虑老化问题，则显然失效率真应该随时间而上升，不能为常数，比如取为一个 $x$ 的增函数： $λ x^{m}$ ，那假若分布函数为 $F (x)$ ，则有 $F^{'} (x) / [1 - F (x)] = λ x^{m}$ ，结合 $F (0) = 0$ ，得出：
$F (x) = 1 - e - (λ / m + 1) x m + 1$

取 $α = m + 1 (α > 1)$ ，并把 $λ / (m + 1)$ 记为 $λ$ ，得到：
$F (x) = 1 - e - λ x α, x > 0$

概率密度函数为：
$f (x) = {λ α x α - 1 e - λ x α, 0, x > 0; x \leq 0 。$

实际上指数分布是威布尔分布当 $α = 1$ 时的特例。

出处：http://www.cnblogs.com/ronny/p/3346568.html
相关阅读:
App的开发过程（转载）
一款APP的完整开发流程（转载）
JS判断是否是数组的四种做法（转载）
easyui datagrid Column Group 列组、复杂表头嵌套表头组合表头（转载）
php bootstrap-datetimepicker
Echarts实现Excel趋势线和R平方计算思路
 前端项目开发流程（转载）
对有序特征进行离散化（继承Spark的机器学习Estimator类）
Spark ML 中 VectorIndexer, StringIndexer等用法（转载）
Z-Score数据标准化（转载）
原文地址：https://www.cnblogs.com/mq0036/p/8399124.html

一维随机变量及其概率分布

1. 随机变量的概念

2. 离散型随机变量的分布

定义2.1

定义2.2

3. 几个常见的离散型分布

3.1. 二项分布

3.2. 泊松分布

3.3. 超几何分布

3.4. 几何分布

3.5. 负二项分布

4. 连续型随机变量分布

定义4.1

4.1. 正态分布

4.2. 均匀分布

4.3. 指数分布

4.4. 威布尔分布