• 『原创』机器学习算法的R语言实现(三):朴素贝叶斯分类器


    本人原创,转载请注明来自 http://www.cnblogs.com/digging4/p/3884385.html

    1、引子

    朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中朴素的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。

    2、实例

    最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“颜色”取值为红、绿。对这三个特征描述的苹果中,对苹果的按味道进行分类,可取的值为good、bad。

    朴素贝叶斯分类器就要要解决如下一个问题,已知苹果味道取good和bad的概率,那么如果给定一个一组苹果的特征,那么这个苹果味道取good和bad的概率是多少?这是个典型的逆概率的问题。

    尺寸(size) 大 小 大 大 小 小
    重量(weight) 轻 重 轻 轻 重 轻
    颜色(color) 红 红 红 绿 红 绿
    味道(taste) good good bad bad bad good

    以上给出了6个苹果的特征描述及其口味,那个一个大而重的红苹果,能否估计出它的味道是good还是bad?

    这里我们先解释下朴素的含义,朴素就是这样一个假设:描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想,对这个例子来说,这个假设就不成立嘛,大小和重量从直觉上我们都会感到是两个正相关的特征。是的,朴素的假设在实际世界中是较难满足的,但是实际使用中,基于这个假设作出预测的正确率是在一个可接受的范围。

    3、基本方法

    (P(A|B)) 表示在确定B的情况下,事件A发生的概率,而在实际情况中,我们或许更关心(P(B|A))但是只能直接获得(P(A|B)) ,此时我们需要一个工具可以把(P(A|B)) 和(P(B|A))相互转化, 贝叶斯定理就是这样一个公式,下面给出贝叶斯定理:
    [P(B|A) = frac{{P(A|B)P(B)}}{{P(A)}}]

    对苹果分类的问题,有三个特征(F = { {f_1},{f_2},{f_3}} ),两种分类(C = { {c_1},{c_2}} ),根据贝叶斯公式有给定特征条件下,特征为({c_i})的概率
    [P({c_i}|{f_1}{f_2}{f_3}) = frac{{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}}{{P({f_1}{f_2}{f_3})}}]
    使得上式取得最大值的({c_i})即为分类结果,由于对给定训练集来说,({P({f_1}{f_2}{f_3})})为常数,那么就转为为求
    [{P({f_1}{f_2}{f_3}|{c_i})P({c_i})}]
    的最大值。
    朴素贝叶斯的假设在这里就体现了,由于特征值相互独立,那么上式可以转化为
    [P({f_1}|{c_i})P({f_2}|{c_i})P({f_3}|{c_i})P({c_i})]
    整个问题就变为求使得上式取最大值的({c_i}),而上式中的每一项都可以从训练集中得到。

    最后讨论下Laplace校准,如果某一个特性值在训练集中出现的次数为0,那么以上我们讨论的公式就没有意义了,以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况,但是如果避免不了就需要进行Laplace校准。其实很简单,把所有出现特征出现的次数都加上1,即为Laplace校准。

    4、R语言实现

    ################################
    # 朴素贝叶斯分类器
    ################################
    
    library(plyr)
    library(reshape2)
    
    #1、根据训练集创建朴素贝叶斯分类器
    #1.1、生成类别的概率
    
    ##计算训练集合D中类别出现的概率,即P{c_i}
    ##输入:trainData 训练集,类型为数据框
    ##      strClassName 指明训练集中名称为strClassName列为分类结果
    ##输出:数据框,P{c_i}的集合,类别名称|概率(列名为 prob)
    class_prob <- function(trainData, strClassName){
      #训练集样本数
      length.train <- nrow(trainData)
      dTemp <- ddply(trainData, strClassName, "nrow")
      dTemp <- ddply(dTemp, strClassName, mutate, prob = nrow/length.train)
      dTemp[,-2]
    }
    
    ##1.2、生成每个类别下,特征取不同值的概率
    ##计算训练集合D中,生成每个类别下,特征取不同值的概率,即P{fi|c_i}
    ##输入:trainData 训练集,类型为数据框
    ##      strClassName 指明训练集中名称为strClassName列为分类结果,其余的全部列认为是特征值
    ##输出:数据框,P{fi|c_i}的集合,类别名称|特征名称|特征取值|概率(列名为 prob)
    feature_class_prob <- function(trainData, strClassName){
      # 横表转换为纵表
      data.melt <- melt(trainData,id=c(strClassName))
      # 统计频数
      aa <- ddply(data.melt, c(strClassName,"variable","value"), "nrow")
      # 计算概率
      bb <- ddply(aa, c(strClassName,"variable"), mutate, sum = sum(nrow), prob = nrow/sum)
      # 增加列名
      colnames(bb) <- c("class.name",
                        "feature.name",
                        "feature.value",
                        "feature.nrow",
                        "feature.sum",
                        "prob")
      # 返回结果
      bb[,c(1,2,3,6)]
    }
    
    #feature_class_prob(iris,"Species")
    
    
    ## 以上创建完朴素贝叶斯分类器
    
    ## 2、使用生成的朴素贝叶斯分类器进行预测
    ##使用生成的朴素贝叶斯分类器进行预测P{fi|c_i}
    ##输入:oneObs 数据框,待预测的样本,格式为 特征名称|特征值
    ##      pc 数据框,训练集合D中类别出现的概率,即P{c_i}  类别名称|概率
    ##      pfc 数据框,每个类别下,特征取不同值的概率,即P{fi|c_i}
    ##                  类别名称|特征名称|特征值|概率
    ##输出:数据框,待预测样本的分类对每个类别的概率,类别名称|后验概率(列名为 prob)
    pre_class <- function(oneObs, pc,pfc){
      colnames(oneObs) <- c("feature.name", "feature.value")
      colnames(pc) <- c("class.name","prob")
      colnames(pfc) <- c("class.name","feature.name","feature.value","prob")
      
      # 取出特征的取值的条件概率
      feature.all <- join(oneObs,pfc,by=c("feature.name","feature.value"),type="inner")
      # 取出特征取值的条件概率连乘
      feature.prob <- ddply(feature.all,.(class.name),summarize,prob_fea=prod(prob))  #prod为连乘函数
      
      #取出类别的概率
      class.all <- join(feature.prob,pc,by="class.name",type="inner")
      #输出结果
      ddply(class.all,.(class.name),mutate,pre_prob=prob_fea*prob)[,c(1,4)]
    }
    
    
    ##3、数据测试
    ##用上面苹果的数据作为例子进行测试
    #训练集
    train.apple <-data.frame(
      size=c("大","小","大","大","小","小"),
      weight=c("轻","重","轻","轻","重","轻"),
      color=c("红","红","红","绿","红","绿"),
      taste=c("good","good","bad","bad","bad","good")
      )
    #待预测样本
    oneObs<-data.frame(
      feature.name =c("size", "weight", "color"),
      feature.value =c("大","重","红")
    )
    
    #预测分类
    pc <- class_prob(train.apple,"taste")
    pfc <- feature_class_prob(train.apple,"taste")
    pre_class(oneObs, pc,pfc)
    
    

    结果为
    class.name pre_prob
    1 bad 0.07407407
    2 good 0.03703704
    可见该苹果的口味为bad

    5、朴素贝叶斯分类小结

    1、属于有监督的学习(有训练集);
    2、主要处理离散类型的数据,如果为连续数据可先进行离散化;
    3、训练集的特征取值要尽量完备,如果有缺失需进行预处理(Laplace校准);
    4、关于特征值相互独立的假设,在实际问题中一般无法满足,但基于此假设做的预测是可以接受的。

    关于其他的朴素贝叶斯介绍可见:
    http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html
    http://www.cnblogs.com/leoo2sk/archive/2010/09/17/1829190.html

  • 相关阅读:
    python 文件处理 -- 02 文件属性&标准输入输出&命令行参数&文件编码
    python 文件处理 -- 01 文件打开&读取&写入&关闭&指针
    python进阶-- 04 如何定制类
    python进阶-- 03 面向对象编程
    python进阶-- 02 如何使用模块
    python进阶-- 01 函数式编程
    python基础-- 08 迭代&列表生成式
    python基础-- 07 切片
    python基础-- 06 函数
    关于hanlp自定义词典的使用
  • 原文地址:https://www.cnblogs.com/digging4/p/3884385.html
Copyright © 2020-2023  润新知