机器学习比较基础的任务,就是分类:
一般的分类办法,就是尽可能测量所有可测得属性,或者特别重要的属性(又称为特征),并且由 人类 评判这些特征是属于什么类别。 这样的 [特征-类别]又叫训练样本。
例如:鸟类的 “特征-类别”训练样本
重量(特征1) | 翅宽(特征2) | 颜色(特征3) | 是/否有脚蹼(特征4) | 种类(目标变量) |
1000 | 125 | 灰色 | 无 | 鸟类1 |
3000 | 200 | 棕色 | 有 | 鸟类2 |
*在分类算法中目标变量的类型通常是离散的,二回归算法中通常是连续的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。
机器学习的另一任务,就是回归,主要用于预测数值型数据。
*分类和回归,属于监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。如果想要预测目标变量的值,则可以选择监督学习。如果确定使用监督学习,下一步就要确定目标变量的类型,如果目标变量是离散型,
像上面的鸟类,则选择分类算法;如果是连续型,如0~100,则选择回归算法。
*而非监督学习,就是数据没有类别信息,也不会给定目标值。如果不想预测目标变量的值,可以选择非监督学习算法。如果要仅仅想要将数据划分为离散的组,则使用聚类算法;除此之外,还需要估计数据与每个分组的相似程度,则需要密度估计算法。
*在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程,称聚类。将寻找描述数据统计值得过程,称为密度估计。
*机器学习的步骤:1.收集数据 2.整理数据,形成一定的数据结构 3.分析输入数据(主要是过滤,或者将数据降维,将三维降二维,二维降一维等等) 4.训练数据 5.测试算法(内符合,外符合)6.使用算法
监督学习的用途 | |
K-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | lasso最小回归系数估计 |
无监督学习的用途 | |
K-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |