• 决策树


    1 将决策树看作条件概率分布

      决策树可表示为给定特征条件下类的条件概率分布。即,将特征空间划分为互不相交的单元,每个单元对应于决策树中一条从根节点到叶节点的路径。每个单元对应一个条件概率分布。一个好的决策树在叶节点上的条件概率(即一个单元内的条件概率)应该偏向某个类,即保证叶子节点内的数据的熵很小。

    2 决策树的学习

      决策树的学习包括三步:特征选择,决策树的生成,决策树的剪枝。

      不同的决策树算法有不同的特征选择的方式;

      决策树的生成是为了与训练数据很好的拟合,相当于求局部最优;

      决策树的剪枝是为了降低模型复杂度,使模型对未知数据有更好的预测能力,相当于求全局最优。

      2.1 特征选择

        2.1.1 以信息增益为准则的特征选择

               (1)信息增益的定义

           (2)理解为什么信息增益能够作为特征选择的准则

           (3)给出数据集D和特征A,如何计算信息增益?(公式)

        2.1.2 以信息增益比为准则的特征选择

               (1) 信息增益比的定义(公式)

          (2)原文中写:使用信息增益的来选择特征,会存在偏向于选择取值较多的特征的问题,使用信息增益比可以对这一问题校正。问题是为什么信息增益会偏向于选择取值较多的特征?又为什么信息增益比可以校正?

           2.1.3 以基尼指数为准则的特征选择

          (1) 基尼指数的定义(公式)

          (2)给定样本集合D,如何计算基尼指数?(公式)

          (3)如何计算特征A条件下集合D的基尼指数?(公式)(注意这里是根据特征A是否取某一值a来划分的)

          (3)基尼指数、熵之半、分类误差率的对比图

      2.2 决策树的生成

          (1)ID3生成算法流程(注意什么时候终止递归)

          (2)C4.5生成算法流程(与(1)的区别:使用了不同方法选择特征)

          (3)CART生成算法流程(与(1)的区别:使用了不同方法选择特征,除了选择最优特征,还要选择最优切分点;每次只生成两个子节点,最终生成的是一颗二叉树)

      2.3 决策树的剪枝

          (1)决策树学习的损失函数的定义(公式):训练数据的误差+模型复杂度

          (2)CART剪枝算法:

            注意点:为什么要减去g(t)最小的节点Tt,得到子树T1,并把g(t)作为α?

            因为当α为g(t)时,最优子树一定是T1,原因是其他节点的g(t)都大于α,减去以后损失函数反而增大。

            问题是:剪枝前后的损失函数值都是一样的,为什么还要剪枝。

          (3)ID3和C4.5的剪枝书中没有细讲,但是算法基本类似,只是C(t)计算有差异。

    3 CART回归树

      3.1 回归树的模型

        (1)回归树的模型定义(公式)

          (2)平方误差表示对训练数据的预测误差(公式)

      3.2 最小二乘回归树的生成算法

         注意点:a 对于一个给定的划分单元,这个单元上的最优c值等于这个单元内所有输入实例对应的输出y的均值(公式),这步要会推(二次函数求最值)

             b 算法相当于尝试所有的切分变量和切分点,可以算出每种切分方案对应的最优c值,进而算出每种方案对应的平方误差(公式),然后选择最小误差的切分方案。

             c 递归进行

  • 相关阅读:
    multimap-swap
    multimap-size
    multimap-rend
    CentOS的利手:“Screen”一个可以在多个进程之间多路复用一个物理终端的窗口管理器
    对TCP/IP网络协议的深入浅出归纳
    程序员的数学:汉诺塔递归与非递归求解
    多柱汉诺塔问题探究
    汉诺塔问题的递归实现(扩展)
    CentOS---网络配置详解
    VMWare虚拟机下CentOS 配置网络实现远程连接,提供Web访问
  • 原文地址:https://www.cnblogs.com/coldyan/p/6049432.html
Copyright © 2020-2023  润新知