• 朴素贝叶斯


    一、贝叶斯方法

    频率派把需要推断的参数θ看做是固定的未知常数,即概率θ虽然是未知的,但最起码θ是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;


    而贝叶斯派的观点则截然相反,他们认为参数θ是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数θ的分布。

     

    贝叶斯及贝叶斯派提出了一个思考问题的固定模式:
    先验分布 + 样本信息 =后验分布

    二、贝叶斯定理

    条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”

     

    联合概率表示两个事件共同发生的概率。A与B的联合概率表示为

     

    边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化。

     

    贝叶斯公式

    贝叶斯公式可以直接根据条件概率的定义直接推出。即因为P(A,B) = P(A)P(B|A) = P(B)P(A|B),所以P(A|B) = P(A)P(B|A)  / P(B)。

     三、朴素贝叶斯分类器

    Naive Bayes Classifiers(朴素贝叶斯分类器)

    在机器学习中,朴素贝叶斯分类器是一个基于贝叶斯定理的比较简单的概率分类器,其中 naive(朴素)是指的对于模型中各个 feature(特征) 有强独立性的假设,并未将 feature 间的相关性纳入考虑中。

    朴素贝叶斯分类器一个比较著名的应用是用于对垃圾邮件分类,通常用文字特征来识别垃圾邮件,是文本分类中比较常用的一种方法。朴素贝叶斯分类通过选择 token(通常是邮件中的单词)来得到垃圾邮件和非垃圾邮件间的关联,再通过贝叶斯定理来计算概率从而对邮件进行分类。

     

    朴素贝叶斯算法的核心思想:选择具有最高后验概率作为确定类别的指标

    python示例:

    http://www.cnblogs.com/pursued-deer/p/7783459.html

    朝闻道
  • 相关阅读:
    Spring读取properties内容
    SpringBoot全局异常处理
    Hibernate入门
    Oracle查询表及注释
    MySQL重复与不重复问题
    IDEA中other settings不见了
    01程序员修炼之道
    团队冲刺(四)
    单词字母查询频率
    学习进度(9)
  • 原文地址:https://www.cnblogs.com/wander-clouds/p/8641623.html
Copyright © 2020-2023  润新知