贝叶斯和决策树
贝叶斯公式一言以蔽之:寻求概率的概率是多少。
(P(A|B)=frac{P(B|A)·P(A)}{P(B)})
我们假设有这样一件事:抛三次硬币,有一个人抛了三次全部都是正面,这就很奇怪了,是不是可能作弊了,还是说真的运气好,贝叶斯在这的应用就是计算作弊的概率有多大。
(P(A))是先验分布,表示的是这个人的人品如何
(P(B|A))是实验数据
(P(A|B))是后验概率,表示的是在出现三次硬币都向上的情况下,这个人作弊的概率
因此,可以理解上述贝叶斯推断为如下表达式
后验分布 = 先验分布 + 实验数据
朴素贝叶斯
通常(B=B_1∪B_2∪B_3...)贝叶斯公式就写为
(P(A|B)=frac{P(B|A)·P(A)}{P(B)}=frac{P(B_1,B_2,B_3...|A)P(A)}{P(B_1,B_2,B_3...)})
其中(P(B_1,B_2,B_3...|A))的计算不太方便,引出条件独立的概念(P(A|G,B)=P(A|G))对其进行简化
导出(P(A,B|G)=P(A|G)P(B|G))
由于分母的值是一个常数,再进一步简化,获得另一个值
(omega = P(A)prod_{i=0}^nP(B_i|A))
拉普拉斯平滑
因为朴素贝叶斯的公式中全部都是连乘,万一有一项为0,导致后续的计算全部为0,这就出大问题了。而在计算条件概率的时候大多都是靠离散数据来求,如果数据集中没出现过的数据来到计算的步骤,显然会显示为0,拉普拉斯平滑的作用就是避免0的出现(后续开专栏讲这个吧,挖个坑)
决策树
通过特征对数据进行分类,如果两种不同的分类方式可以获得完全相同的预测结果,就选择简单的那种分类方式,这就使奥卡姆剃刀法则。
ID3决策树
在介绍ID3决策树之前,需要先了解信息熵和信息增益,参考我的博客:https://www.cnblogs.com/seaman1900/p/15314895.html
ID3的算法规则很简单,就是寻找信息增益最高的特征作为节点,同时意味着选了这个特征之后不确定性最小。
分类停止的条件:
- 经过特征分类后子节点剩余特征只有一种数据,其他特征的数据全部为0,称为pure
- 剩下的数据已经无法再进行分类,特征用完了,称为no attribute
- 根据某个特征分类后得到的是空的数据集,成为empty
过学习:和神经网络类似,决策树的模型越复杂,学的越多,准确率就越高,但是相反的,在实际中面对复杂的情况下,有可能“读书读傻了”,导致运行效果就有可能不太理想。因此需要对决策树进行早停、剪枝(将某些分类后数据多、分类效果明显的特征与同级别的不起眼、效果不够好的特征融合)。
对于生日这样区分度高但是没有什么意义的特征需要添加惩罚。