1. 用于执行分类,回归,聚类和密度估计的机器学习方法:
a. 监督学习的用途:
k-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ride回归 |
决策树 | lasso最小回归系数估计 |
b. 无监督学习的用途:
K-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |
2. 选择合适的算法:
如果是想要预测目标变量的值,则可以选择监督学习算法,否则选择无监督学习算法。
确定监督学习算法之后,进一步确定目标变量类型,如果目标变量是离散型,如1/2/3,A/B/C,是/否等,则旋转1分类算法;如果目标变量是连续型的数值,如0.01~~100.00,-999~~999,则选择回归算法。
确定无监督学习算法,进一步分析是否要将数据划分为离散的组,如果只是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
3. 开发机器学习应用程序的步骤:
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法
- 预测算法
- 使用算法