Motivation
Details
决策树的发展经历了CART(Classification and Regression Tree), ID3, C4.5等多个阶段:
CART是一种二叉树,分类树采用基尼系数,回归树采用平方误差。
ID3主要用于分类,是一种多叉树结构,采用信息增益。
C4.5主要用于分类,是一种多叉树结构,采用信息增益比。
最终的模型为:
[f(x)=sum_{i=1}^{m}C_iI(xin R_i),I(xin R_i)=egin{cases}
1, & ext{x$in$ $R_i$} \
0, & ext{else}
end{cases}]
m表示数据集被划分的子集数目,(C_i)表示第i个单元的输出值