使用随机事件的发生的频率描写叙述概率的方法,就是通常说的古典概型。或者称为频率学派。
另外有一个更加综合的观点就是贝叶斯学派。在贝叶斯学派的观点下概率表示的是事件的不确定性大小。
使用概率表示不确定性,尽管不是唯一的选择。可是是必定的,由于假设想使用比較自然的感觉进行合理的综合的判断的话。
在模式识别领域,对概率有一个更综合的了解将会很有帮助。
比如在多项式曲线拟合的过程中,对观察的目标变量使用频率学派的观点来理解看起来比較合适。可是我们希望确定最佳模型的參数w的不确定性情况。于是我们能够看见在贝叶斯理论中不仅能够描写叙述參数的不确定性,实际上选择模型本身也是不确定的。
比較通俗的理解就是,贝叶斯观点下,在模型中,通常我们须要建模一个先验分布。比方说在多项式曲线的拟合过程中,我们不仅要选择确定模型的參数,我们还须要建立參数的先验,于是非常easy结合到贝叶斯公式:
在公式(1.43)中右边的p(D|w)是一个在w下的函数,表示的是在w确定下的数据出现的情况,因此我们称之为似然函数。
定义了似然之后,对于贝叶斯理论我们能够使用(1.44)表示。
在贝叶斯理论和频率学理论中,似然函数p(D|w)都扮演着很重要的角色。
在频率学观点中,w被当做是一个确定的參数。这个參数由某种形式的预计来确定。这个预计是基于可能数据集的分布来获得。而在贝叶斯观点中,參数的情况来自于一个对w的分布建模。
贝叶斯观点的优势在于在模型中包括先验的知识是非常自然的。比如在抛硬币的试验中。假设抛三次硬币出现了三次都是正面。那么依据频率学的观点,使用最大似然进行预计那么得到出现正面的可能性为1。这就是说以后都是以1的概率出现正面。相反在贝叶斯的理论中,引入一个合理的先验将会避免这样极端的结论。
尽管在频率学派和贝叶斯学派中存在非常多的争论。可是其实没有纯粹的频率观点或者贝叶斯观点。然而在实际的应用中,对贝叶斯理论应用有一个非常大的批评,就是说通常先验的选择是基于数学理论方便性来进行选择。而不是反应不论什么的先验信念。
尽管说贝叶斯框架是在18世纪就已经提出了,可是贝叶斯理论的应用受限于计算贝叶斯方法的整个过程,尤其是在预測或者比較模型的时候须要marginalize整个的參数空间。可是随着採样方法的发展,如Markov chain Monte Carlo。使得其能够应用于小规模的问题。另外deterministic approximation
schemes(variational Bayes and expectation propagation)的发展。作为採样方法的一种可选替代,也使得贝叶斯方法能够应用在大规模的应用中。
事实上简单依照[2]中的比喻来说,打麻将过程中。假设仅仅依照出在桌面上的牌的情况来确定自己出什么牌的就是频率学派;而假设是考虑牌由谁打出来的基础上,考虑桌面上牌的情况,那么我们就能够理解为贝叶斯学派。
本文基本上能够觉得是PRML的阅读笔记。主要来自于阅读[1]中的内容,假设当中有问题。欢迎指正。很感谢。
參考资料:
[1]. Pattern Recongnition and Machine Learning, author Christopher M. Bishop, section 1.2.3 Bayesian probabilities.
[2]. 【机器学习】频率学派和贝叶斯学派。http://blog.csdn.net/zhuangxiaobin/article/details/26166599.