朴素贝叶斯,到底什么是贝叶斯?
先验概率:就是在某个元素在某个分类中概率,比如一个公司,里面有运维团队,开发团队(分类)里面有100个人;有海事大学的10个人,那么海事大学在开发团队中概率是10%;
后验概率:那么作为该公司的一个海事大学的毕业生,是在开发团队中概率是多少?(还有测试团队,运维团队);贝叶斯解决的,就是根据先验概率来求解后验概率。
体会一下,贝叶斯问题其实就是一个摄像机镜头切换场景;首先摄像机镜头照射的是一个分类,我们称之为C分类;然后再聚焦C分类里面的某个子类(可能只是元素,可能是某类元素),这个子类占这个分类的概率可以获知;
然后镜头拉远,此时完整的呈现了多个分类,那么拿出刚才聚焦的那个子类,在全局的多个分类的场景下,聚焦的子类,是C类的概率有多大(子类同样可能一定概率属于绿色类和粉色类)?
对于此类问题思路就是要知道C类中,指定子类的概率(占比),然后再获知C类在整个空间的占比;通过这两个值就可以知道对于指定子类(橘黄色部分)在全空间范围内,属于C类的概率。这个概率就是后验概率。
其实先验概率就是小范围内(一个分类)某堆元素的占比;根据这个小范围的占比来推断大范围的内,某堆元素属于小范围的概率是多大。简言之,就是根据局部来推断全局。