• Clementine决策树算法C&RT、CHAID、QUEST、C5.0的区别


    决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。

    优点:
      1) 可以生成可以理解的规则;
      2) 计算量相对来说不是很大;
      3) 可以处理连续和种类字段;
      4) 决策树可以清晰的显示哪些字段比较重要。
    缺点:
      1) 对连续性的字段比较难预测;
      2) 对有时间顺序的数据,需要很多预处理的工作;
      3) 当类别太多时,错误可能就会增加的比较快;
        4) 一般的算法分类的时候,只是根据一个字段来分类。

    (racoon)

    一、 C 5.0算法  执行效率和内存使用改进、适用大数据集
    优点:
    1)面对数据遗漏和输入字段很多的问题时非常稳健;
    2)通常不需要很长的训练次数进行估计;
    3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
    4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。


    二、classification and regression tree(C&RT):

     (详见 决策树算法之一 分类回归树(C&RT)(2009-10-21 21:13))
    分类回归树
    优点
    (1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;
    (2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);
    (3)估计模型通常不用花费很长的训练时间;
     (4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)
    (5) 比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成IF…THEN的形式
    (6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;
    (7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。
    (8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。


    三、CHAID:
    优点:
    (1)可产生多分枝的决策树
    (2)目标变量可以定距或定类
    (3)从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程
    (4)建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分

    四、quest(quick unbiased efficient statistical tree):
    优点:运算过程比CR&T更简单有效
    QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 决策树分析所需的处理时间,同时减小分类树方法中常见的偏
    向类别较多预测变量的趋势。预测变量字段可以是数字范围的,但目标字段必须是分类的。所有分割都是二元的。

  • 相关阅读:
    Java基础—ArrayList源码浅析
    Java基础——类加载机制
    Java基础——常用类之日期时间类
    Java基础——反射
    栈队列例题3:使用两个栈实现一个队列
    栈队列例题2:SetOfStack放盘子
    栈队列例题1:设置带最小值的栈
    链表例题6:检查链表中的数据是否回文
    队列的实现
    栈的实现
  • 原文地址:https://www.cnblogs.com/dekevin/p/2557765.html
Copyright © 2020-2023  润新知