机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

朴素贝叶斯:

是使用概率论来分类的算法。其中朴素：各特征条件独立；贝叶斯：根据贝叶斯定理。
这里，只要分别估计出，特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出

k-近邻算法:

简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

决策树:
最优划分属性,结点的“纯度”越来越高。

即如何选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

支持向量机(SVM)
是支持（或支撑）平面上把两类类别划分开来的超平面的向量点
支持向量机本身便是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中

Logistic回归

主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类,也可以被看成是一种概率估计。

zhuanzai :http://www.cnblogs.com/hemiy/p/6214034.html

特征工程

feature_extraction.text.CountVectorizer([…])
feature_extraction.text.TfidfVectorizer([…])

类别型变量独热向量编码
data/adult.csv
老师，dummies 把字符列多生成一列有什么用呢？
为了更好的统计用
多个环节串起来，
skilenar 常用接口

get_dummies()
linspace（）
OneHotEncoder（）
PolynomialFeatures（）：

高阶的项，组合属性特征的交集

文本做特征，
连续的值的特征
分桶quantiletransfromer()
基于模型对特征的选择
逐步特征删除RFE

Cross_val_score()交叉验证
留一交叉验证
GridsearchCV()

搭建流程：
Pipeline:
pipeline(流水线tuple)
pipeline(('name',ss()),('age',getage())
make_pipeline(ss(),log())

xgboost,
lightGBM
数据，噪声，特征:
day of week
day of year
day of month
week of year
hour of day
minute of day
month of year
24,48

用pipeline流程的方式，重新组织Titanic案例，包括特征工程、特征选择、多项式特征、交叉验证、网格搜索
相关阅读:
关于求 p_i != i and p_i != i+1 的方案数的思考过程
 poj 3041 Asteroids 二分图最小覆盖点
 poj 1325 Machine Schedule 最小顶点覆盖
 poj 1011 Sticks 减枝搜索
 poj 1469 COURSES 最大匹配
 zoj 1516 Uncle Tom's Inherited Land 最大独立边集合(最大匹配)
Path Cover (路径覆盖)
hdu 3530 SubSequence TwoPoint单调队列维护最值
 zoj 1654 Place the Rebots 最大独立集转换成二分图最大独立边（最大匹配）
poj 1466 Girls and Boys 二分图最大独立子集
原文地址：https://www.cnblogs.com/csj007523/p/7420501.html