• 决策树及随机森林(笔记)


    决策树就是一层一层的if-else, 数据最好是离散型的

     决策树是有监督学习。利用训练集,最终训练为一棵树(叶子节点是类别,中间是属性)

    ————————————————————————————————————————————————————————————————

    决策树的构建方法 id3方法

    信息熵的概念:

    ID3构建决策树的思想:

    分布越均匀,越混乱,熵越大。结点上的数据类值都相同(毫无悬念,系统一点也不混乱,熵最小)

    因此一个好的决策树划分,应该是每次都找一个属性划分,这个属性划分完,结点尽量聚集在一类,即划分完以后熵很小。

    因此计算熵增益(信息增益)。

     

    用原系统的熵减去划分后系统的熵,找到差距最大的那个属性。

     

     

     

     

     

     ID3如何终止:

     ID3性质,不会回溯,已经选择过的属性,不会被重新计算和考虑。

    ————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

    过拟合及剪枝算法

     

    数据划分法,就是用训练集和测试集。用训练集生成决策树,使用测试集测试,当错误率最小时,停止树的生长。

     后减枝,就是合并分支。

     

     C4.5和CART算法,这种决策树建立方法已经包含了减枝。

    ——————————————————————————————————————————————————————

    随机森林,就是决策树的森林。

    1. 有放回的随机抽取,构成训练子集, 对N个子训练集分别构建决策树

    2. 也可以对特征进行采样(类似于用来进行特征筛选)

    3、投票。

     

  • 相关阅读:
    社群电商
    文字超出部分省略号显示······
    jq监听页面的滚动事件,
    input 更改 pleaseholder 的字体样式
    20161213 scrapy安装
    map按照value排序的方法
    Qt跨线程信号和槽的连接
    C++ map指针的使用
    Python 高级进阶
    [转]解读C指针(5)——笔试题解析
  • 原文地址:https://www.cnblogs.com/importsober/p/13061120.html
Copyright © 2020-2023  润新知