1.贝叶斯公式
2. 从机器学习的角度理解朴素贝叶斯公式
3. 垃圾邮件识别
4. 分词
对于二分类比较器,分母一样,只要比较分子即可:
5. 条件独立假设
6. 朴素贝叶斯
加上独立假设的贝叶斯方法就是朴素贝叶斯方法。弊端是语句没有顺序。
7. 处理重复词语的三种方式
7.1 多项式模型
7.2 伯努利模型
7.3 混合模型
8. 去除停用词与选择关键词
9. 平滑技术
10. 总结
11. 实际工程的tricks
11.1 trick1 :取对数, 对于多项式相乘,精度会有很大误差
这里的C是朴素贝叶斯公式中的分子部分。
比较logC(垃圾邮件的概率)和log^C正常邮件的概率,
将log计算出的结果保存到字典中,供下次查询。
11.2 trick2:转换为权重
11.3 trick3:选取topk的关键词
只选取topk个关键词作为计算。
11.4 trick4:分割样本
11.5 trick5:位置权重
11.6 蜜罐
1
end