九、朴素贝叶斯分类
P(A) - A事件发生的概率
P(A,B) - A和B两个事件同时发生的概率,联合概率
P(A|B) - 在B事件发生的条件下A事件发生的概率,条件概率
贝叶斯定理:P(A,B) = P(B)P(A|B)
P(B,A) = P(A)P(B|A)
P(B)P(A|B) = P(A)P(B|A)
P(A)P(B|A)
P(A|B) = -------------
P(B)
x1 x2 ... xn -> ?
\_________/
X -> 0 0.2
1 0.3 <-
2 0.05
X样本属于C类别的概率是多少?
P(C)P(X|C)
P(C|X) = ------------ (贝叶斯定理)
P(X)
P(C)P(X|C)
= P(C,X)
= P(X,C)
= P(x1,x2,x3,C)
= P(x1|x2,x3,C)P(x2,x3,C)
= P(x1|x2,x3,C)P(x2|x3,C)P(x3,C)
= P(x1|x2,x3,C)P(x2|x3,C)P(x3|C)P(C)
朴素:条件独立,所有的特征值彼此没有任何依赖性。
= P(x1|C)P(x2|C)P(x3|C)P(C)
1 7 9 -> 0
...
8 2 0 -> 0
...
6 4 3 -> 0
...
1 9 2 -> 0
...
1 2 3 -> ? 0
拥有足够的训练样本,可以通过统计的方法获得各个特征值的概率,或者在已知每个特征所服从概率分布的前提下,利用概率密度或者概率质量函数计算出每个特征值出现的概率。
---
计算样本数据属于某一类别的方法,就是上述贝叶斯推导过程。然后再分别计算出需要预测的样本属于各个分类的概率,概率大的为最后的结果。