• 机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归


    朴素贝叶斯:

    是使用概率论来分类的算法。其中朴素:各特征条件独立;贝叶斯:根据贝叶斯定理。
    这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出

    k-近邻算法:

    简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。


    决策树:
    最优划分属性,结点的“纯度”越来越高。

    即如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。


    支持向量机(SVM)
    是支持(或支撑)平面上把两类类别划分开来的超平面的向量点
    支持向量机本身便是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中


    Logistic回归

    主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类,也可以被看成是一种概率估计。

     zhuanzai :http://www.cnblogs.com/hemiy/p/6214034.html

    特征工程

    feature_extraction.text.CountVectorizer([…])
    feature_extraction.text.TfidfVectorizer([…])

    类别型变量 独热向量编码
    data/adult.csv
    老师,dummies 把字符列 多生成一列有什么用呢?
    为了更好的统计用
    多个环节串起来,
    skilenar 常用接口

    get_dummies()
    linspace()
    OneHotEncoder()
    PolynomialFeatures():

    高阶的项,组合属性特征的交集

    文本做特征,
    连续的值的特征
    分桶quantiletransfromer()
    基于模型对特征的选择
    逐步特征删除RFE

    Cross_val_score()交叉验证
    留一交叉验证
    GridsearchCV()


    搭建流程:
    Pipeline:
    pipeline(流水线tuple)
    pipeline(('name',ss()),('age',getage())
    make_pipeline(ss(),log())

    xgboost,
    lightGBM
    数据,噪声,特征:
    day of week
    day of year
    day of month
    week of year
    hour of day
    minute of day
    month of year
    24,48

    用pipeline流程的方式,重新组织Titanic案例,包括特征工程、特征选择、多项式特征、交叉验证、网格搜索

  • 相关阅读:
    关于求 p_i != i and p_i != i+1 的方案数的思考过程
    poj 3041 Asteroids 二分图最小覆盖点
    poj 1325 Machine Schedule 最小顶点覆盖
    poj 1011 Sticks 减枝搜索
    poj 1469 COURSES 最大匹配
    zoj 1516 Uncle Tom's Inherited Land 最大独立边集合(最大匹配)
    Path Cover (路径覆盖)
    hdu 3530 SubSequence TwoPoint单调队列维护最值
    zoj 1654 Place the Rebots 最大独立集转换成二分图最大独立边(最大匹配)
    poj 1466 Girls and Boys 二分图最大独立子集
  • 原文地址:https://www.cnblogs.com/csj007523/p/7420501.html
Copyright © 2020-2023  润新知