1. 前言
贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。
贝叶斯学派的思想可以概括为先验概率+数据=后验概率。也就是说我们在实际问题中需要得到的后验概率,可以通过先验概率和数据一起综合得到。数据大家好理解,被频率学派攻击的是先验概率,一般来说先验概率就是我们对于数据所在领域的历史经验,但是这个经验常常难以量化或者模型化,于是贝叶斯学派大胆的假设先验分布的模型,比如正态分布,beta分布等。这个假设一般没有特定的依据,因此一直被频率学派认为很荒谬。虽然难以从严密的数学逻辑里推出贝叶斯学派的逻辑,但是在很多实际应用中,贝叶斯理论很好用,比如垃圾邮件分类,文本分类。
2. 概率论基础
首先介绍的是多个随机变量之间的关系,主要涉及联合概率,边缘概率,条件概率这三种关系。相应的概率都可以计算相应的信息熵的值
2.1 联合概率
联合概率指的是包含多个条件且所有条件同时成立的概率,记作(P(X=a,Y=b))。
2.2 边缘分布
边缘概率是与联合概率对应的,(P(X=a))或(P(Y=b)),这类仅与单个随机变量有关的概率称为边缘概率。
2.3 条件分布
条件概率表示在条件(Y=b)成立的情况下,(X=a)的概率,记作(P(X=a|Y=b)).它具有如下性质:
“在条件(Y=b)下(X)的条件分布”也是一种“(X)的概率分布”,因此穷举(X)的可取值之后,所有这些值对应的概率之和为1即 (sum_aP(X=a|Y=b)=1)
2.4 联合概率与边缘概率的关系
[P(X=a)=sum_bP(X=a,Y=b)
]
2.5 联合概率、边缘概率与条件概率之间的关系
[P(X=a|Y=b)=frac{P(X=a,Y=b)}{P(Y=b)}
]
3. 贝叶斯定理
贝叶斯定理的基础是先验概率+数据=后验概率。贝叶斯定理解决的是一些原因X无法直接观测、测量,而我们希望通过其结果Y来反推出原因X的问题,也就是知道一部分先验概率,来求后验概率的问题。
3.1 条件独立公式
如果X和Y相互独立,则有:
[P(X,Y)=P(X)P(Y)
]
3.2 条件概率公式
[P(Y|X)=frac{P(X,Y)}{P(X)}
]
[P(X|Y)=frac{P(X,Y)}{P(Y)}
]
3.3 全概率公式
[P(X)=sum_kP(X|Y=Y_k)P(Y_k)
]
3.4 贝叶斯公式
[P(Y|X)=frac{P(X|Y)P(Y)}{P(X)}=frac{P(X|Y)P(Y)}{sum_kP(X|Y=Y_k)P(Y_k)}
]