• 决策树算法之CART


    CART(Classification and Regression Tree),中文名为分类回归树,顾名思义,这种算法既可以完成分类任务,又可以完成回归模型。是1984年由Breiman等四英国人提出的。

    一、  特点:

      1.该算法是构建二元(Binary)分类回归树的算法,也即,,决策树在每次分叉的时候,只能分出两支数值;

      2.该算法在字段选择的时候,使用Gini Index 作为评估指标;

      3.C5.0是通过计算预测错误率来剪枝,而CRAT是通过验证集的真实数值来剪枝。简单说,CRAT听过训练数据产生决策树,再用验证数据判断剪枝。对于训练数据来说,该决策树的叶节点能够达到100%分类正确,这时,决策树划分的太细了,会对噪声数据产生过度拟合,所以需要对决策树进行修剪。将验证数据带入训练数据生成的树,计算各叶节点的错误率。如果一个分支,叶节点的错误率之和大于该分支砍去所产生的错误率,则对此分支进行修剪。

      4.分类树和回归树的区别在于叶节点,如果目标字段是类别型的,则建立的模型为分类树,如果目标字段是数值型的,则建立的模型就是回归树。

    二、Gini Index (评估指标)

        

      Gini Index 为0 ,则纯度最高,Gini Index的值越大纯度越低。Gini Index  的取值范围为:0-0.5.

        (图片来自:经管之家CDA)

     

     

        (图片来自:经管之家CDA)

         

  • 相关阅读:
    体检前注意事项
    SSO之CAS单点登录详细搭建教程
    如何通过session控制单点登录
    谈谈防止Ajax重复点击提交
    js判断是移动端还是pc端
    HttpClient通过GET和POST获取网页内容
    HttpClient 4.x 执行网站登录并抓取网页的代码
    360每日自动签到,领取积分 (java httpclient4.x)
    Java @override报错的解决方法
    无开发经验,初学python
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13235762.html
Copyright © 2020-2023  润新知