• ctr中的GBDT+LR的优点


    1 为什么gbdt+lr优于gbdt?

      其实gbdt+lr类似于做了一个stacking。gbdt+lr模型中,把gbdt的叶子节点作为lr的输入,而gbdt的叶子节点相当于它的输出y',用这个y'作为lr的x,和stacking是类似的。但是这里和一般的stacking有些差别,stacking的话是多个模型的y'作为stacking模型的输入,训练出这个stacking模型,然后stacking模型的输出作为最终结果。gbdt+lr是每个叶子节点作为这个y'。

      另外gbdt的每棵树其实是拟合上一颗树的残差上求得的局部最优解,把所有局部最优解的输出通过lr训练得到一个全局最优解。这里出现一个疑问:gbdt最后集成所有树时每棵树的权重是怎么计算的?

    2 为什么gbdt+lr优于lr?

      (1)lr算法简单,能够处理超高纬度稀疏问题。但是lr需要人工进行特征组合。gbdt+lr相当于对原始特征通过gbdt进行了特征组合

      (2)gbdt对连续特征划分能力强,可以帮助lr处理连续特征,避免了人工对连续特征分箱操作。这里又涉及到另一个问题:

    3 为什么lr不能处理连续特征(为什么要把连续特征转化为离散特征后送进lr?)

      因为这样可以增加lr的鲁棒性,比如如果把年龄送进lr,那么23和24岁本来相差不大,但是却变成了完全不同的变量,也就是所23岁和24岁的区别程度和23岁和50岁的区别程度是一样的,显然不符合。或者加入一个300岁的偏差特征也可能会影响模型,但对年龄分箱之后就可以避免上述问题,增加模型鲁棒性。

  • 相关阅读:
    poj3537--Crosses and Crosses
    poj3480--John
    poj2975--Nim
    poj2960 S-Nim
    poj2505-A multplication game
    Team Queue(POJ 2259)
    将caffemodel文件转换为Matlab可用的数据形式
    Invalid MEX-file: caffe.mexa64 的解决方案
    mongoDB-3.x启用认证
    mongoDB跨平台图形管理工具
  • 原文地址:https://www.cnblogs.com/dylan9/p/8927977.html
Copyright © 2020-2023  润新知