1、分类
⾼、富、帅、⽩、富、美-->俊男|靓⼥
2、朴素⻉叶斯分类
3、拉普拉斯平滑
对于某个数据集,我们考虑到对于某个特征X在训练集中没有出现,那么将会导致整个分类概率变为0,这将会导致分类变得⾮常不合理,所以为了解决零概率的问题,法国数学家拉普拉斯最早提出⽤加1的⽅法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。假定训练样本很⼤时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以⽅便有效的避免零概率问题。
应⽤举例:
假设在⽂本分类中,有3个类,C1、C2、C3,在指定的1000个训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01。对这三个量使⽤拉普拉斯平滑的计算⽅法如下:
4、举个例⼦
特征
⽠蒂:脱落|未脱落
形状:尖形|圆形
颜⾊:深绿|浅绿|⻘⾊
类别
类别:⽠熟|⽠⽣
现在有⼀⻄⽠(脱落|圆形|⻘⾊)
4.1 对于熟⽠
4.2 对于⽣⽠