机器学习常用算法

机器学习常用算法

机器学习过程主要包括：数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分：

机器学习算法主要包括以下几类：

regression (回归)

回归：建立一个回归方程来预测目标值，用于连续型分布预测。

回归算法在很多领域得到了普遍应用，在金融方面，可以用它来做股市行情分析和预测；在产品运营方面，可以用它来做产品流量预估；在生物领域，可以用它来做蛋白结合点位预测；在交通领域，可以用它来做道路流量预警。

classification (分类)

分类：给定大量带标签的数据，计算出未知标签样本的标签取值。

比如：对客户等级进行划分，验证码识别，对水果品质自动筛选等；

在金融方面，可以用它来识别作弊用户；在交通领域，车牌识别也是一种分类应用；在产品运营领域，它可以用作流失客户的预警，提前找到那些有可能流失的客户。

clustering (聚类)

聚类：将不带标签的数据根据距离聚集成不同的簇，每一簇数据有共同的特征。

如果给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在 维空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。聚类也是分析样本的属性, 有点类似classification, 不同的就是classification 在预测之前是知道的范围, 或者说知道到底有几个类别, 而聚类是不知道属性的范围的。所以 classification 也常常被称为 supervised learning, 而clustering就被称为unsupervised learning。

比如：对客户价值和商圈做预测；

关联分析

关联分析：计算出数据之间的频繁项集合。

相关性分组或关联规则。其目的是发现哪些事情总是一起发生。

比如：对超市的货品摆放和个性化推荐做分析；

dimensionality reduction (降维)

如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。
相关阅读:
CF500F New Year Shopping [线段树分治，背包]
P5344 【XR-1】逛森林[倍增优化建图，zkw线段树优化spfa]
CF452F Permutation [哈希，树状数组]
[NOI Online #2 提高组]子序列问题
 牛客挑战赛39题解
 #6036. 「雅礼集训 2017 Day4」编码 [前缀优化2sat]
CF1156E Special Segments of Permutation [分治，set]
#6198. 谢特 [后缀自动机，01trie合并，启发式合并]
P4246 [SHOI2008]堵塞的交通 [动态图连通性]
CF1096G Lucky Tickets [NTT，多项式快速幂]
原文地址：https://www.cnblogs.com/ghj1976/p/ji-qi-xue-xi-chang-yong-suan-fa.html

机器学习常用算法

regression (回归)

classification (分类)

clustering (聚类)

关联分析

dimensionality reduction (降维)