贝叶斯分类器是一个相当宽泛的定义,它背后的数学理论根基是相当出名的贝叶斯决策论。
贝叶斯学派
贝叶斯决策论是在概率框架下进行决策的基本方法之一,更是统计模式识别的主要方法之一。
贝叶斯学派与频率学派
贝叶斯学派降调概率的主观性,这一点和传统的频率学派不同。(概率论与数理统计相关知识不再赘述)
- 频率学派强调频率的“自然属性”,认为应该使用事件在重复试验中发生的频率作为其发生的概率的估计。
- 贝叶斯学派不强调事件的“客观随机性”,认为仅仅只是“观察者”不知道事件的结果。换句话说,贝叶斯学派认为:事件之所以具有随机性仅仅是因为“观察者”的知识不完备,对于“知情者”来说,该事件其实不具备随机性。随机性的根源不在于事件,而在于“观察者”对该事件的知识状态。
举个例子:
假设一个人抛了一枚均匀硬币到地上并迅速将其踩在脚底,而在他面前从近到远坐了三个人。
他本人看到了硬币是正面朝上的,而其他三个人也多多少少看到了一些信息,但显然坐得越远、看得就越模糊。
频率学派会认为,该硬币是正是反,各自的概率都应该是50%;
但是贝叶斯学派会认为,对抛硬币的人来说,硬币是正面的概率就是100%,
然后可能对离他最近的人来说是80%,对离他最远的人来说就可能是50%。
所以相比起把模型参数固定、注重样本的随机性的频率学派而言,
贝叶斯学派将样本视为是固定的,把模型的参数视为关键。
在上面这个例子里面,样本就是抛出去的那枚硬币,模型的参数就是每个人从中获得的“信息”。
对于频率学派而言,每个人获得的“信息”不应该有不同,
所以自然会根据“均匀硬币抛出正面的概率是50%”这个“样本的信息”来导出“硬币是正面的概率为50%”这个结论。
但是对贝叶斯学派而言,硬币抛出去就抛出去了,
问题的关键在于模型的参数,亦即“观察者”从中获得的信息,
所以会导出“对于抛硬币的人而言,硬币是正面的概率是100%”这一类的结论。
贝叶斯决策论
在大致知道贝叶斯学派的思想后,就可以介绍贝叶斯决策论了。这里不可避免地要牵
扯到概率论和数理统计的相关定义和知识,但幸运的是它们都是比较基础且直观的部分,
无须太多的数学背景就可以知道它们的含义。
参数估计
无论是贝叶斯学派还是频率学派,
一个无法避开的问题就是如何从已有的样本中获取信息并据此估计目标模型的参数。
比较有名的“频率近似概率”其实就是(基于大数定律的)相当合理的估计之一,
本章所叙述的两种参数估计方法在最后也通常会归结于它。
极大似然估计(ML估计)
如果把模型描述成一个概率模型的话,
一个自然的想法是希望得到的模型参数θ能够使得在训练集X作为输入时、型输出的概率达到极大。
举个例子:
假设一个暗箱中有白球、黑球共两个,虽然不知道具体的颜色分布情况,
但是知道这两个球是完全一样的。
现在有放有回地从箱子里抽了2个球,发现两次抽出来的结果是1黑1白,
那么该如何估计箱子里面球的颜色?从直观上来说,似乎箱子中也是1黑1白会比较合理,
下面我们就来说明“1黑1白”这个估计就是极大似然估计。
在这个问题中,模型的参数θ可以设为从暗箱中抽出黑球的概率,
样本x1可以描述为第次取出的球是否是黑球:如果是就取1、否则取0。
直接对它求极大值(虽然可行但是)不太方便,通常的做法是将似然函数取对数之后再进行极大值的求解。
极大后验概率估计(MAP估计)
相比起极大似然估计,极大后验概率估计是更贴合贝叶斯学派思想的做法。
事实上其实也有不少人直接称其为“贝叶斯估计”。
在讨于论MAP估计之前,我们有必要先知道何为后验概率p(X)。
它可以理解为参数训练集下所谓的“真实的出现概率”
在下一节具体讨论朴素贝叶斯算法时我们会看到:
朴素贝叶斯在估计参数时选用了极大似然估计法,
但是在做决策时则选用了MAP和极大似然估计相比,
MAP估计的一个显著优势在于它可以引入所谓的“先验知识”,这正是贝叶斯学派的精髓。
当然这个优势同时也伴随着劣势:它要求我们对模型参数有相对较好的认知,否则会相当大地影响到结果的合理性。
既然先验分布如此重要,那么是否有比较合理的、先验分布的选取方法呢?
事实上,如何确定先验分布这个问题,正是贝叶斯统计中最困难、最具有争议性却又必须解决的问题。
虽然这个问题确实有许多现代的研究成果,但遗憾的是,尚未能有一个圆满的理论和普适的方法。
这里拟介绍“协调性假说”这个比较直观、容易理解的理论。
- 我们选择的参数θ的先验分布,应该与由它和训练集确定的后验分布属同一类型。
此时先验分布又叫共轭先验分布。
这里面所谓的“同一类型”其实又是难有恰当定义的概念,
但是可以直观地理解为:概率性质相似的所有分布归为“同一类型”。
比如,所有的正态分布都是“同一类型”的