树模型:
决策树:从根节点开始一步步走到叶子节点(决策)。
所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。
树的组成:
根节点:第一个选择点
非叶子节点与分支:中间过程
叶子节点:最终的决策树结果
决策树的训练与测试:
训练阶段:从给定的训练集构造出来一棵树(从根节点开始选择特征,如何进行特征切分)
测试阶段:根据构造出来的树模型从上到下走一遍就好了。
问题:根节点的选择该用哪个特征?接下来,如果切分呢?(如何切分特征)
目标:通过一种衡量标准,来计算通过不同的特征进行分支选择后的分类情况,找出最好的那个当成根节点,以此类推。
衡量标准-熵
熵:熵是表示随机变量不确定性的度量(越乱的结构说明熵值越高)。不确定性越大,得到的熵值也越大。
(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有,那肯定混乱,专卖店里面只卖一个牌子的那就稳定多了)
当 p=0或p=1的时候,H(p)=0,随机变量完全没有不确定性。当p=0.5的时候,H(p)=1,此时随机变量的不确定性越大。
信息增益:表示特征X使得类Y不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)。也可以说表示的是你的熵值下降了多少。
比如原来熵值是10,后来熵值是8,那么就说明信息增益为2.
问答:
1.如何决策一个节点的选择?
通常来说大当家根节点去信息增益里面找最大的那个,二当家找信息增益第二的那个,依次类推下去,确保这个决策树的不确定性降到最低。增益越大,说明不确定性较少的越多。