1.算法分类:有监督算法和无监督算法;或者=>回归.分类.聚类算法
有监督算法:训练数据中包含y值,也就是包含这个标签值(label的值);回归和分类都属于有监督算法
无监督算法:训练数据中不包含y值的,也就是算法的目的是找出数据中的隐含的规则,简单来讲就是将数据根据数据的特征划分为不同的类别/聚簇;聚类算法就是无监督算法
分类:如果预测的y值是类别类型的(可数的值,eg:1 2 3),一般要求y的类型必须是int
回归:如果预测的y值是连续的值(eg:1.1,1.2,1.3,1.35...),对y没有类型的要求(int和float均可以)
====>
因为分类和回归中有这个y值,所以我们可以判断训练出来的模型到底好不好,但是聚类算法是没有y值得,所以我们没法判断.
===>
所以算法的评估指标只有分类和回归的评估,没有聚类的评估.
训练集:训练模型用的数据集
测试集:用于判断模型效果如何的数据集
测试集存在的目的是为了在模型上线前,用于测试这个模型在实际的生产环境中效果如何.
备注:无监督算法中,一般情况下只有训练集,没有测试集,在无监督算法中,数据只有x没有y
2.分类
3.回归
在回归中,判断模型效果的时候可以以使用预测值和实际值之间的差距来体现
通过对测试集的数据的测试预测,然后进行模型调整!