• 机器学习入门之分类算法——决策树


    决策树是一类常见的分类算法,它思路清晰简单,实现也并不困难。正如其名,决策树是基于树状结构来决策的。《机器学习》中有一个例子,按决策树的来判断“这是一个好的西瓜吗?”,首先,我们要看看西瓜的纹理,如果纹理清晰,我们再看它的根蒂是否蜷缩,色泽是否青绿,触感是否硬滑....如果都是,那它大概率是一颗好瓜。画成图大概如下:

    显然地,决策树的每个分支都是对某个属性的测试,而测试的结果将会导出结果、或者进一步的测试。一般的,一颗决策树包含一个根结点、若干个内部节点和叶节点;由根到叶,组成了一条测试序列,叶是测试结果,根和内部节点是测试属性。通过培养一颗决策树,我们就可以对数据进行有效的分类。接下来我们看看西瓜书上的算法图:

    类别C表示分类结果(如好瓜),Dv表示按属性a的取值划分出的子集(如触感=硬滑的瓜)

    要注意的是,这里的三条递归终止条件:

    (1)样本全为同一类别;

    (2)属性集空或者样本在属性集上取值一致;

    (3)分支节点为空。这三条必须全都满足,不然在生成树的时候,要么准确率低,要么出错。

    决策树的重点就在于第八行的选取划分属性,其余的步骤都是基本一直的。简单来讲,入门决策树的划分选择有三:

    (1)信息增益(或称熵减,即id3);

    (2)信息增率(即c4.5);

    (3)基尼指数(数据纯度,即cart)。

    (1)id3

    id3的划分基于信息熵(香农熵),熵越大的数据,其不纯的程度也就越大,相反,熵越小的数据,其纯度也就越高,换言之,更为有条理(比方说根蒂蜷缩的西瓜大多是好瓜)。而id3(基于熵减的划分),就是寻找能够在最大程度上降低熵的划分属性,从而达到提高数据纯度的目的(分类也就越准确)。

    熵计算公式:

    信息增益公式:

    |D|表示数据集的数据个数(模)

    在id3中,只需遍历A中的所有可划分的属性,选择gain最大的那一个属性来划分即可。

    (2)c4.5

    上文所说的id3在使用时会有一个问题,就是它会倾向于那些可取值较多的属性(划分完之后生成若干个小子集),即它更倾向于数量(属性中可能的取值数)而非质量(属性中单个取值的熵减)。c4.5就是倾向于质量的划分选择。

    具体公式如下:

    不过,c4.5也并非只注重于信息增率(增率),它是现在信息增量高于平均水平的属性中,找出增率最大的那一个,所以既兼顾了数量也兼顾了质量。

    (3)cart

    cart方法与上面两种都不太类似,它用了一种称为“基尼指数”的标准来划分属性,如下:

    Pk为类别为k的数据的概率(好瓜比例),按上面的公式,基尼指数表示任意选两个样本,其类别不一致的概率,即一个集合里面数据不纯的程度。

    如果加上权重,那么基尼指数如下:

    即划分时选取基尼指数最小的那一个属性。

    决策树的代码和测试数据等我推到github上再贴出来。

    以上是三种比较常见的决策树,但这三种决策树的效果还可以进一步再优化,有两种思路:

    (1):进行剪枝,增强泛化能力;

    (2):集成,用RF、Adaboost等算法来增强泛化能力和准确率。

    下一步我打算写一写关于决策树在集成算法方面的应用。

  • 相关阅读:
    省队集训 Day1 残缺的字符串
    省队集训 Day3 吴清华
    省队集训 Day3 陈姚班
    Java多线程中的join方法
    Java多线程同步机制之同步块(方法)——synchronized
    java-实用的sql语句
    java-分页之页面分页
    java下实现调用oracle的存储过程和函数
    java-MySQL存储过程
    MySQL存储过程
  • 原文地址:https://www.cnblogs.com/rosehip/p/11193663.html
Copyright © 2020-2023  润新知