机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记第6章决策树

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记第6章决策树
数据挖掘作业，要实现决策树，现记录学习过程

win10系统，Python 3.7.0

构建一个决策树，在鸢尾花数据集上训练一个DecisionTreeClassifier:
```
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)
```
要将决策树可视化，首先，使用export_graphviz()方法输出一个图形定义文件，命名为iris_tree.dot

这里需要安装graphviz

安装方式:

① conda install python-graphviz

② pip install graphviz

在当前目录下新建images/decision_trees目录

不然会报错

Traceback (most recent call last):
File "decisiontree.py", line 21, in <module>
filled=True)
File "E:Anacondalibsite-packagessklearn reeexport.py", line 762, in export_graphviz
out_file = open(out_file, "w", encoding="utf-8")
FileNotFoundError: [Errno 2] No such file or directory: '.\images\decision_trees\iris_tree.dot'
```
from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

export_graphviz(tree_clf,
                out_file=image_path("iris_tree.dot"),
                feature_names=iris.feature_names[2:],
                class_names=iris.target_names,
                rounded=True,
                filled=True)      
```
运行过后生成了一个dot文件

使用命令dot -Tpng iris_tree.dot -o iris_tree.png 将dot文件转换为png文件方便显示

决策树如上图所示

petal length:花瓣长度 petal 花瓣宽度

samples:统计出它应用于多少个训练样本实例

value:这个节点对于每一个类别的样例有多少个这个叶结点显示包含0 个 Iris-Setosa，1 个 Iris-Versicolor 和 45 个 Iris-Virginica

Gini:用于测量它的纯度，如果一个节点包含的所有训练样例全都是同一类别的，我们就说这个节点是纯的（ Gini=0 ）

Gini公式:

Pik是第i个节点上，类别为k的训练实例占比

深度为 2 的左侧节点基尼指数为： 1 - (0/54)² - (49/54)² - (5/54)² = 0.68

进行预测

当找到了一朵鸢尾花并且想对它进行分类时，从根节点开始，询问花朵的花瓣长度是否小于2.45厘米。如果是，将向下移动到根的左侧子节点，在这种情况下，它是一片叶子节点，它不会再继续问任何问题，决策树预测你的花是iris-setosa

假设你找到了另一朵花，但这次的花瓣长度是大于2.45厘米的。必须向下移动到根的右侧子节点，而这个节点不是叶节点，它会问另一个问题，花瓣宽度是否小于1.75厘米？如果是，则将这朵花分类成iris-versicolor ,不是，则分类成iris-versicolor

注意：scikit-learn使用的是CART算法，该算法仅生成二叉树；非叶节点永远只有两个子节点。

估计分类概率

新样本:花瓣长5厘米，花瓣宽1.5厘米，预测具体的类
```
print(tree_clf.predict_proba([[5,1.5]]))
print(tree_clf.predict([[5,1.5]]))
```
此处说明分类为iris-setosa的概率为0，分类为iris-versicolor的概率为0.90740741,分类为iris-virginica的概率为0.09259259

通过predict预测该花为iris-versicolor

完整代码
```
#在鸢尾花数据集上进行一个决策树分类器的训练
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)
export_graphviz(tree_clf,
                out_file=image_path("iris_tree.dot"),
                feature_names=iris.feature_names[2:],
                class_names=iris.target_names,
                rounded=True,
                filled=True)      
print(tree_clf.predict_proba([[5,1.5]]))
#[0]:iris-setosa,     [1]:iris-versicolor,    [2]:iris-virginica"
print(tree_clf.predict([[5,1.5]]))
```
CART训练算法原理介绍：

Scikit-Learn使用的是分类与回归树（Classification And Regression Tree，简称CART）算法来训练决策树（也叫作“生长”树）。想法非常简单：首先，使用单个特征k和阈值tk（例如，花瓣长度≤2.45厘米）将训练集分成两个子集。k和阈值tk怎么选择？答案是产生出最纯子集（受其大小加权）的k和tk就是经算法搜索确定的（t，tk）。
相关阅读:
oracle学习篇十：序列
 oracle学习篇九：同义词
 oracle相关常识
 oracle之数据同步：Oracle Sql Loader使用说明（大批量快速插入数据库记录）
oracle学习篇八：约束
 oracle学习篇七：更新操作、事务处理
 oracle学习篇六：子查询
 oracle学习篇五：组函数，分组统计
 oracle学习篇四：多表查询
 oracle学习篇三：SQL查询
原文地址：https://www.cnblogs.com/coderying/p/12045954.html

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记 第6章 决策树

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记第6章决策树