机器学习-决策树

机器学习-决策树

学习知识的步骤：

看书、摘抄、理解 ---------- 做题、实践、检验 ---------- “大妈级”语言讲述

参考文章：

《机器学习-周志华》

《统计学习方法-李航》

《机器学习实战-Peter Harrington》

《Pattern Recognition and Machine Learning》

1、决策树介绍：

选择所有特征属性中信息熵最大的特征，从根节点进行测试，根据测试结果将实例分配到其子节点，每一个子节点对应该特征的取值，如此递归对实例进行测试并分配，直至到达叶节点，最后将实例分类到叶节点中。

根节点：包含样本全集

叶节点：对应决策结果，即对应的实例分类

其他节点：对应特征属性测试

2、优缺点：

优点：

1.模型具有可读性，分类速度快，计算复杂度不高

2.可以处理连续和种类字段

3.无需领域知识以及参数假设

4.适合高维数据

5.对中间值的缺失不敏感

6.可以同时处理标称型和数值型数

缺点：

1.容易产生过拟合

2.容易忽略数据集中属性的相互关联

3.对于那些各类别样本数量不一致的数据，在决策树中，进行特征属性划分时，不同的判定准则会带来不同的属性选择倾向。即因不同的算法得到的结果可能不同

3、香农熵：

《Pattern Recognition and Machine Learning》p48页，讲述了香农熵公式的由来。

3.1 经验熵

对数据集进行分类的不确定性H(D)称为经验熵，其概率一般由数据估计（特别是极大似然估计）得到。

3.2 条件经验熵

特征属性A在给定条件下对数据集分类的不确定性H(D|A)，其概率一般由数据估计（特别是极大似然估计）得到。

4、ID3算法：

4.1 信息增益

5、C4.5算法：

5.1 信息增益比

6、CART算法：

6.1 回归树

平方最小化准则

6.2 分类树

基尼指数最小化准则
相关阅读:
读书-《智能时代》-机器智能正在革我们的命
 判断Http服务器是否支持支持断点续传
 最全Html标签Meta介绍
 用PHP整理照片和视频文件
 读书-《癌症.真相：医生也在读》-我所认识的癌症
 scrapy-redis组件配置用例
 Scrapy+seleninu抓取内容同时下载图片几个问题
 无界浏览器Chorme命令行开关
 Scrapy Crawl 运行出错 AttributeError: 'xxxSpider' object has no attribute '_rules' 的问题解决
 福利，OpenCV最新中文版官方教程来了
原文地址：https://www.cnblogs.com/Jacon-hunt/p/11367446.html

机器学习-决策树

学习知识的步骤：

看书、摘抄、理解 ---------- 做题、实践、检验 ---------- “大妈级”语言讲述

1、决策树介绍：

2、优缺点：

3、香农熵：

3.1 经验熵

3.2 条件经验熵

4、ID3算法：

4.1 信息增益

5、C4.5算法：

5.1 信息增益比

6、CART算法：

6.1 回归树

平方最小化准则

6.2 分类树

基尼指数最小化准则