第三章——贝叶斯决策与学习
3.1贝叶斯决策与MAP分类器。基于距离的决策——仅考虑每个类别各自观测到的训练样本的分布情况,例如,均值(MED分类器)和协方差(MICD分类器)没有考虑类的分布等先验知识,例如,类别之间样本数量的比例,类别之间的相互关系。
后验概率:用于分类决策。基于贝叶斯规则(Bayes rule) ,已知先验概率和观测概率,模式x属于类C后验概率的计算公式为:p(C;x)=p(x|C)p(C) /p(x)。
MAP分类器——最大后验概率(Maximum posterior probability, MAP)分类器:将测试样本决策分类给后验概率最大的那个类。
3.2、MAP分类器:高斯观测概率。MAP分类器偏向于先验较大可能性的类、分布较为紧致的类。
3.3、决策风险与贝叶斯分类器。在MAP分类器基础上,加入决策风险因素,得到贝叶斯分类器(Bayes classifier)——给定一个测试样本x,贝叶斯分类器选择决策风险最小的类。
3.4、最大似然估计。定义——待学习的概率密度函数记作p(x|), θ是待学习的参数。给定的N个训练样本都是从p(x|0)采样得到的、且都符合iid条件,
则所有样本的联合概率密度为: p(x1, x2,... xN|) = Πn=1 p(xn|0)。该函数称为似然函数(L ikelihood function)。学习参数θ的目标函数可以设计为:使得该似然函数最大。
3.5、最大似然的估计偏差。如果一个参数的估计量的数学期望是该参数的真值,则该估计量称作无偏估计(unbiased estimates)。
在实际计算中,可以通过将训练样本的协方差乘以N/(N- 1)来修正协方差的估计值。
3.6、贝叶斯估计(1)。贝叶斯估计——给定参数0分布的先验概率以及训练样本,估计参数分布的后验概率。
参数后验概率:分析——当Ni;足够大时,样本均值m就是参数的无偏估计。
贝叶斯估计具备不断学习的能力——它允许最初的、基于少量训练样本的、不太准的估计。随着训练样本的不断增加,可以串行的不断修正参数的估计值,从而达到该参数的期望真值。
3.7、贝叶斯估计(2)。贝叶斯估计vs最大似然估计——样本个数逐渐增大时,贝叶斯估计越来越能代表真实的观测似然分布。最大似然估计有明确的目标函数,通过优化技术来求取0ML。
3.8、KNN估计。如果概率分布形式未知,可以通过无参数(non- parametric)技术来实现概率密度估计。
K近邻(k-nearest neighbor, KNN) 估计:给定x,找到其对应的区域R使其包含k个训练样本,以此计算p(x)。训练样本个数N越大,k取值越大,概率估计的越准确。
KNN——优点:可以自适应的确定x相关的区域R的范围。缺点:KNN概率密度估计不是连续函数。不是真正的概率密度表达,概率密度函数积分是∞而不是1。
3.9、直方图与核密度估计。直方图估计: 优缺点——优点:固定区域R:减少由于噪声污染造成的估计误差。不需要存储训练样本。
缺点——固定区域R的位置:如果模式x落在相邻格子的交界区域,意味着当前格子不是以模式x为中心,导致统计和概率估计不准确。固定区域R的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑。