朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法
基本方法
总论
朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后得到后验概率P(Y|X)。即:
一)利用训练数据得到P(X|Y)和P(Y)的估计
二)根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)
展开
假设
输入空间χ⊆Rn为n维向量的集合
输出空间为类标记集合У={c1,c2,…cK}
输入为特征向量x∈χ
输出为类标记y∈У
X是定义在输入空间χ上的随机变量
Y是定义在输出空间У上的随机变量
训练数据集为T={(x1,x2),(x2,y2),…(xN,yN)}
特征的总个数为n
每一个特征的可能取值为Sj
训练数据的总个数为N
类标记个数为K
推导
一)通过训练数据得到
1. 先验概率P(Y=ck), k=1,2,…K
2. 条件概率分布P(X=x|Y=ck)=P(X(1)=x(1),…X(n)=x(n)|Y=ck)
朴素贝叶斯法的基本假设为条件独立性,即用于分类的特征在类确定的条件下都是条件独立的。所以
P(X=x|Y=ck)=P(X(1)=x(1),…X(n)=x(n)|Y=ck)
对于参数P(Y=ck)、P(X(j)=x|Y=ck)的估计可以是几大似然估计也可以是贝叶斯估计。
极大似然估计
设第j个特征x(j)可能的取值为{aj1,aj2,…ajsj}个数为Sj个
贝叶斯估计
用几大似然估计可能会出现所要估计的概率值为0的情况,这时候影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计的方法估计。此时条件概率的贝叶斯估计为
等价于在随机变量的各个取值的频数上加上一个正数。当时为极大似然估计,常去,此时成为拉普拉斯平滑。显然有
二)根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)
P(Y|X)= =P(Y=ck)P(X(j)=x(j) |Y=ck) /
可以看出此时分母是一样的,所以,
y=arg P(Y=ck)P(X(j)=x(j) |Y=ck)
后验概率最大化的含义
y=arg P(Y=ck)P(X(j)=x(j) |Y=ck)
等价式是取得最大值,原因是:朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。后验概率最大等价于0-1损失函数的期望风险最小化。
假设选择0-1损失函数:
此时,期望风险函数为
Rexp(f) = E[L(Y,f(X))]
可以看出是取条件期望,设
=argmaxP(y=ck|X=x)
这样一来,风险最小化准则得到后验概率最大化准则:
f(x)=argmaxP(ck|X=x)