1. 简述
贝叶斯是典型的生成学习方法
对于给定的训练数据集,首先,基于特征条件独立假设,学习输入/输出的联合概率分布;然后,基于此模型,对于给定的输入x,根据贝叶斯定理求后验概率最大的输出y
术语说明:
- 特征条件独立假设:用于分类的特征在类确定的条件下都是条件独立的。这一假设大大减少模型包含的条件概率数量,简化了贝叶斯方法的学习与预测
- 联合概率分布:即先验概率和条件概率(条件独立性假设,重要知识点)
- 学习联合概率分布的方法:学习就是指估计先验概率和条件概率,具体方法有极大似然估计、贝叶斯估计(贝叶斯估计是为了避免极大似然估计出现概率为0的情况,影响计算)
- 后验概率最大:等价于期望风险最小化
2 条件概率的估计
摘自http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
计算出各个划分的条件概率是朴素贝叶斯分类的关键,当特征是离散值时,统计出现频率即可,下面讨论连续值的情况
当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。即:
而
因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值
代码:https://github.com/yundou2017/bayes/blob/master/Bayes2.m
优缺点
- 优点:在数据较少的情况下仍然有效,可以处理多类别问题
- 缺点:对于输入数据的准备方式较为敏感