• 统计学习方法五:决策树


    结合之前的部落格:http://www.cnblogs.com/naonaoling/p/4173631.html

    一、什么是决策树?

    决策树是一种基本的分类和回归算法。
    决策树模型呈树形结构,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
    决策树模型由结点和有向边组成,结点分为内部结点和叶结点,内部结点表示特征,叶结点表示类,有向边表示某一特征的取值。
    学习阶段:利用训练数据集,根据损失函数最小化的原则建立决策树模型
    预测阶段:对新的数据,利用决策树模型进行分类
    本部落格只针对分类问题进行描述
    
    特性:
    (1)多分类或回归
    (2)判别模型
    (3)学习步骤:特征选择—决策树生成—决策树剪枝
    

    二、决策树模型与学习

    1、模型:
        分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。
        结点:有内部结点和叶结点两种类型。内部结点表示一个特征或属性,叶结点表示一个类
    
    2、决策树学习
        学习模型:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确分类。该模型不仅对训练数据有很好的拟合,而且对未知数据有很好的越策
        学习策略:通常选择正则化的极大似然函数作为损失函数,损失函数最小化
        学习算法:采用启发式算法,近似求解上述最优化问题。
                  递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类。
        过拟合:以上方法生成的决策树可能对训练数据有很好的分类能力,但对未知的数据却未必,即可能发生过拟合。
        剪枝:对生成的树自下而上进行剪枝,将树变得更简单,从而使它具有更好的泛化能力。
        特征选择:如果特征数量很多,也可以在学习开始的时候,对特征进行选择。
    

    三、特征选择

    参加之前的部落格 http://www.cnblogs.com/naonaoling/p/4173631.html
    
    选取对训练数据具有分类能力的特征,用该特征来划分特征空间。
    如果一个特征具有更好的分类能力,或者说,按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征
    特征选择的准则:信息增益或信息增益比。
    

    四、决策树的生成算法

    参加之前的部落格 http://www.cnblogs.com/naonaoling/p/4173631.html
    1、ID3
        在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树
        ID3相当于用极大似然法进行概率模型的选择
    2、C4.5
        特性选择标准:信息增益比(与ID3的本质区别)
    

    五、剪枝

    为了避免过拟合现象,从已生成的树上裁掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。
    
    决策树生成:考虑更好的拟合训练集数据  —— 学习局部的模型
    剪枝:通过优化损失函数还考虑了减小模型复杂度 —— 学习整体的模型
    
    怎么剪? —— 降低不确定性 —— 结构风险最小化
    

    六、CART算法

    classificaion and regression tree ,分类与回归树
    即可用于分类也可用于回归
    
    特性:
    (1)决策树是二叉树,内部结点取值“是”和“否”,分别为左结点和右结点
    (2)给定输入随机变量X条件下输出随机变量Y的条件概率分布(之前的算法,既可以是一种if then规则,也可以是条件概率分布)
    (3)步骤:决策树生成+决策树剪枝
    
    1、CART生成
    
        递归地构建二叉决策树的过程
    
    1)回归树生成
        平方误差最小化
    2)分类树生成
        基尼指数最小化
  • 相关阅读:
    查询job的几个语句
    fdisk与parted分区
    升级时针对Source oracle home 不存在解决办法
    oracle常用视图v$mystat v$sesstat v$sysstat v$statname v$thread v$ parameter v$session v$process
    x$ksppi与x$ksppcv查询隐藏参数
    查询表空间及已使用情況的SQL语句
    通过系统进程查找sql语句
    RAC日常维护命令
    创建ASM实例及ASM数据库(转载)
    安装数据库软件,节点未显示
  • 原文地址:https://www.cnblogs.com/naonaoling/p/5692882.html
Copyright © 2020-2023  润新知