决策树也是最经常适用的数据挖掘算法
决策树可以适用不熟悉的数据集合,并从中提取一系列规则,机器学习算法最终将使用这些规则(ps:专家系统中常用决策树)
优点:计算复杂度不高,输出易于理解,中间值缺失不敏感,可处理不相关特征数据
缺点:可能产生过度匹配
适用:数值型,标称型
原理:找到当前数据集在划分数据分类时 起决定作用的特征 ,为了找到这个特征,必须评估每个特征,再完成测试后,原始数据被分为几个子集,-->递归次过程,直到根分支上都是统一类型
评估方法:1求得信息熵,根据获取最大信息增益的原则划分数据集 ref:信息论度量信息方法。
2基尼不纯度。