这是我们已经学到的(除Decision Tree外)
下面是一个典型的decision tree算法,有四个地方需要我们选择:
接着介绍了一个CART算法:通过decision stump分成两类,衡量子树的标准是,将数据分成两类后,这两类数据的纯度(purifying)。
下面是不纯度的衡量:
最后是什么时候停下来:
decision tree可能overfitting,需减小Ein和叶子的数目(表示树的复杂度)
如果缺少某一特征的话,可找一替代特征:
将CART和Adaboost进行对比:Adaboost是在整个平面上切割,CART是在已切好的平面继续切割(条件切割):
这一节课老师讲的比较笼统,详细可参考统计学习方法。