一 对数回归
全称为对数几率回归,其它文献也称为 线性回归。
虽然称为回归,但实际是分类算法。
本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。
只适用于二分类?
多分类情况 采用 OvO或者OvR策略解决。
类别不平衡问题 采用 再缩放 (rescaling) 策略解决
欠采样 -- EasyEnsemble
过采样 -- SMOTE
一.五
线性回归,配合多项式扩展+正则化,好像是无敌的。确实能很好的拟合测试集,但在验证集上表现不一定好。是不是配合验证曲线 来选择呢。
二 线性判别分析 LDA
可以适用于多分类。
属于有监督线性降维方法。与之相对的是无监督线性降维,其中之一就是PCA(主成分分析)
三 决策树
划分指标
信息增益 -- ID3
增益率 -- C4.5
gini index 基尼指数 -- CART决策树 classification and regression tree的缩写
适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。 --> 分类
也可以处理缺失值,牛逼。起码C4.5是可以的。
过拟合处理策略
剪枝
预剪枝
后剪枝
扩展:多变量决策树
本质是对变量进行线性组合
算法:OC1
四 贝叶斯分类器
原理:通过先验概率,似然(类条件概率)求得后验概率的具体值,根据概率值判定哪种情况更有可能发生。
应用场景:
文章推荐 ω为是否推荐给用户
文章分类 ω为文章类型,体育,经济,娱乐,
晴天,逆风,等条件情况下是否打网球 ω为是否打网球
在模式识别,信息检索,机器学习等领域有着极为重要的作用。
分类
朴素贝叶斯
基于 属性条件独立性假设。
避免因训练集样本不充分导致概率估值为零,采用拉普拉斯修正。
半朴素贝叶斯分类器
独依赖估计 ODE
贝叶斯网
EM算法
五 人工神经网络
感知机
本质是线性分类器(参数=2),超平面(参数>2)
BP算法(误差逆传播算法)前馈型网络
Hopfield Networks
六 支持向量机((SVM)
1 本质是线性分类器和超平面
2 思路是将线性不可分的样本映射到高维特征空间,通过kernel trick 解决高维计算爆炸问题。
3 核函数
线性核,在文本分类领域,线性核SVM是第一考虑算法。若将每个单词作为文本数据的一个属性,则该属性空间维数很高,冗余度很大,其描述能力 足以将不同文档打散.
多项式核
高斯核
拉普拉斯核
sigmoid核
4 支持向量回归 SVR
5 软间隔和正则化
七 聚类
不同的预处理对聚类的结果影响很大。
根据簇类类型(整个簇集通常称作簇类)
划分
层次
AGNES
根据簇类型
基于原型
K-means
基于密度
DBSCAN。
核心点,边界点,噪点
聚类的结果更符合人眼的印象。适合应用于不规则图形。
基于模型
高斯混合聚类
采用EM算法(期望最大化算法)进行迭代优化求解。
通过迭代,E步,M步,直至收敛到局部最优解。
八 关联分析
频繁项集
关联规则
支持度(support) 本质就是概率
置信度(confidence) 本质就是条件概率
应用场景:
商店购物推荐,比如你网页浏览的一个kindle,刷新页面会推荐kindle其它系列的产品或相关的产品
文本分析
将每个单词看最一个商品,哪两个单词一起出现的概率比较高,谁的置信度又比较高
误区
1 A->B 的置信度为60% ,能否说明A和B为强相关吗?不能,还要看先验概率,B本身的概率。即看A->B的置信度是否大于B自身的概率
2 P(Bread|Battery) > P(Bread) 能否说明bread和battery强相关吗? 不一定,看两者数量级是否差异过大,即是否是非对称的。
apriori算法 十大数据挖掘算法
九 推荐算法
TF-IDF
LSA 隐含语义分析 比tf-idf 更吊一些
Page Rank
collaborative filtering
十 集成学习 ensemble learning
bagging(parallel)
适用于二分类,多分类,回归。
分类任务--简单投票法
回归任务--简单平均法
random forests
随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
特征随机选择k个,推荐k=㏒2 k
每个训练样本通过bootstrap方式取得
解决了如何选取特征,如何选取样本的问题
boosting(sequential)
有权重的投票
adaboost
标准adaboost只适用于二分类。
regionboost
相比较adaboost,在测试集上表现更好。
十一 特征选择
过滤式
Relief
包裹式
LVW
嵌入式