基于概率论的分类方法
分类器有时会产生错误结果,于是这时可要求分类器给出一个最优类别猜测结果,同时给出这个猜测的概率估计值
优点:数据较少仍然有效,可处理多类别问题
缺点: 对输入数据准备方式敏感
适用:标称型数据
核心思想:选择具有最高概率分布的决策(条件概率):
P(A|B)=P(AB)/P(B)
P(B|A)=P(AB)/P(A)
P(A|B)P(B)=P(B|A)P(A)
例:
若P(C1|X,Y)>P(C2|X,Y),则(X,Y)属于C1类。
若P(C2|X,Y)>P(C1|X,Y),则(X,Y)属于C2类。
统计学:如果每个特征需要N个样本,那么对m个特征,需要N**m 个样本,但如果每个样本之间相互独立,则只需要 N*m个样本
朴素贝叶斯假设:1 每个特征同等重要 2 每个特征出现的可能性与其他特征不相关。