机器学习入门-贝叶斯垃圾邮件过滤(原理)

贝叶斯里面的参数原理

最大似然：即最符合观测数据的最有优势，即p(D|h)最大

奥卡姆剃刀：即越常见的越有可能发生，即p(h) 表示的是先验概率

最大似然：

当我们投掷一枚硬币，观测到的是正面，那么我们猜测投掷正面的概率为1，即最大似然值的概率是最大的

奥卡姆剃刀：

如果平面上有N个点，我们使用n-1阶的函数可以拟合出任何一个点，但是越高阶的曲线越不常见，因此p(N-1) << p(1) 和p(2) 一阶和二阶的概率

实例：垃圾分类的实例

p(h+|D) = p(D|h+) * p(h+) / p(D) h+ 表示的是垃圾邮件， D表示的是一封邮件里面的词

这个公式表示的含义： p(h+) 表示的是垃圾邮件的概率， p(D|h+) 表示是邮件里面的词与垃圾邮件的相似度，这里使用的可以是词频化的向量也可以tf-dif的向量

相似度的比较的话，这里使用的余弦定理

p(d1, d2, d3...|h+) = p(d1|h+) * p(d2|d1, h+)...

为了方便计算我们使用朴素贝叶斯来进行计算

p(d1, d2, d3..|h+) = p(d1|h+) * p(d2|h+) * p(d3|h+) .... p(d3|h+) 表示这个词在垃圾邮件出现的概率，我们可以使用相似度来进行计算

相关阅读:
delphi debug release区别是什么？
Delphi异形窗口之PNG
WebBrowser实现编辑网页
父子窗体滚动条支持鼠标滚轮移动
Com进程通信(Delphi2007)
Android实例-Delphi开发蓝牙官方实例解析(XE10+小米2+小米5)
教程-Close、Halt、terminate、ExitProcess的区别
各国特种部队名称
关于c#字典key不存在的测试
关于scut使用WebService

原文地址：https://www.cnblogs.com/my-love-is-python/p/10289186.html