朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
设输入空间$mathcal{X} subseteq R^n$,输出空间$mathcal{Y} = {c_1,c_2,cdots,c_k}$。$X$是定义在输入空间$mathcal{X}$上的随机变量,$Y$是定义在输出空间$mathcal{Y}$上的随机变量。$P(X,Y)$是$X$和$Y$的联合概率分布。
训练数据集:
egin{align*}
T = {(x_1,y_1),(x_2,y_2),cdots,(x_N,y_N)}
end{align*}
朴素贝叶斯法通过训练数据集学习联合概率分布$P(X,Y)$,而联合概率分布可由先验概率和条件概率得到。
先验概率分布:
egin{align*}
P(Y=c_k), quad k=1,2,cdots,K ag{4.1}
end{align*}
条件概率分布:
egin{align*}
P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},cdots,X^{(n)}=x^{(n)}|Y=c_k), quad k=1,2,cdots ,K ag{4.2}
end{align*}
条件概率分布有指数级参数,直接对其估计是不可行的。朴素贝叶斯法对条件概率分布做了条件独立性假设。具体的:
egin{align*}
P(X=x|Y=c_k) &= P(X^{(1)}=x^{(1)},cdots,X^{(n)}=x^{(n)}|Y=c_k) \
&= prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k) ag{4.3}
end{align*}
在朴素贝叶斯法中,学习意味着估计先验概率$P(Y=c_k)$和条件概率$P(X^{(j)}=x^{(j)}|Y=c_k)$。这可以应用极大似然估计法进行估计。
进行分类时,对于给定的输入$x$,通过学到的模型计算后验分布$P(Y=c_k|X=x)$,将后验概率最大的类作为$x$的类输出。
后验概率计算根据贝叶斯定理进行:
egin{align*}
P(Y=c_k|X=x) = frac{P(X=x|Y=c_k)P(Y=c_k)}{sum_k P(X=x|Y=c_k)P(Y=c_k)} ag{4.4}
end{align*}