贝叶斯分类算法

贝叶斯分类算法
分类实际上就是按照某种标准来给对象贴标签，然后再根据标签进行区分，基于概率统计的贝叶斯分类算法是最常见的分类算法，也是目前垃圾文本识别领域应用最广泛的算法。

使用贝叶斯分类算法进行二分类大致可分为这几个步骤：
1. 收集大量的垃圾内容和非垃圾内容语料，建立训练的垃圾语料集和正常内容的语料集。
2. 对语料文本进行分词，提取出独立的字符串，并且统计字符串在文本中出现的频次。
3. 每个训练语料集对应一个hash table，比如垃圾语料集放在hashtable_bad中，而非垃圾语料集放在hashtable_good中，而hashtable中存储通过分词提取出的字符串以及对应的词频。
4. 计算hashtable所有的字符串出现的概率，即P=字符串的词频/字符串的总数。
5. 综合hashtable_good与hashtable_bad，推测当一串文本中包含某个字符串时，该文本为垃圾内容的概率,对应的数学表达式如下： P（A|k_i） = P_bad（k_i） / [ P_good（ki） +P_bad（k_i） ]，其中事件A表示文本为垃圾内容，k₁,k₂ ……k_n 代表提取的关键词，而P（A|k_i）则表示在文本中出现关键词k_i时，该文本为垃圾内容的概率，P_bad（k_i）为t_i在hashtable_bad中的值，而P_good（k_i）为k_i在hashtable_good中的值。
6. 建立新的hashtable_probability存储字符串k_i到P（A|k_i）的映射。
行文至此，贝叶斯分类的训练学习过程就完成了，接下来就可以根据hashtable_probability来计算文本为垃圾内容的可能性了。假设用户提交的文本内容经过分词得到n个关键词k₁,k₂,k₃……k_n,hashtable_probability中对应的值为 P₁,P₂……P_n ,P(A|k₁,k₂,k₃……k_n) 表示在用户提交的文本中同时出现关键字k₁,k₂,k₃……k_n时，该段内容为垃圾文本的概率， P(A|k₁,k₂,k₃……k_n) =P₁*P₂*……P_n 。当P(A|k₁,k₂,k₃……k_n)超过预定阈值时，可以判断该内容为垃圾内容，通过调整阀值，可以控制反垃圾系统对于内容过滤的严苛程度。
相关阅读:
TDD
算法与数据结构文档 1 洋洋洋传
 编程的专精度
 python小课
 有时心情舒畅时打个代码心里都是默默地同步输出...
同时可以运行在JVM上的Kotlin~枚举和判定以及数据对象的写法总结
 map
multiset
set
priority_queue
原文地址：https://www.cnblogs.com/encode/p/5166243.html