一 分类算法
KNN
神经网络
支持向量机
适用于高维数据
决策树
gini系数
熵系数
二 聚类算法
K-均值
基于原型,划分类型
不适用密度差别大,形状差异大
DBSCAN
基于密度
三 关联方法
apriori
剪枝
支持度
置信度
FR-growth
四 组合方法
bagging
原理:有放回抽样,63%
random forest
boosting
原理:迭代,修改权重
五 数据预处理
缺失值
重复值
异常值 -- 离群点
特征提取(维归约) -- PCA
特征选择
离散化&二元化 -- 某些分类算法的要求
变量变换
标准化 -- 某些算法的要求,KNN
简单函数变化(log)
四 变量特征
连续/离散
定量/定性
nominal 标称、ordinal 序数、internal 区间 、 ratio 比率