机器学习学习笔记1
Time: 2016-6-12
基本概念的学习
Learning Style(学习类型)
supervised(监督学习)
- 监督学习
-
所谓的监督学习其实就是在数据集D中有格式为 (X,y)的形式,可以看出我们有明确的目标值或者标签(y)与X的数据集有关关联关系。我们可以通过寻找x与y的关系来确定一个关系化的模型**。在这个模型的学习中,我们是通过真是的y值来不断调整真个模型的参数的。
在监督学习的过程中,我们又可以根据数据的存在方式分为分类与回归两种方式:
-
分类
如果我们预测的是离散值,比如:明天是晴天还是阴天,这样的学习任务我们称之为分类
-
回归
如果我们预测的是连续值,比如:在房价的走势中,三室一厅,向阳,临江的价格会是多少?这样的学习任务我们称之为回归
当然,在这里面我们涉及到两个过程,其中寻找模型的的过程叫做训练,使用到的的数据集叫做训练集。而在使用训练好的模型来验证准确率(精确率)的过程叫做测试,使用的数据集叫做测试集。
unsupervised(非监督学习)
- 无监督学习
-
无监督学习与监督学习最直观的区别在于监督学习的数据集格式为(X,y),而非监督学习的数据集格式为(X)。直白的说就是非监督学习没有目标值。而非监督学习的主要目标是从X的数据集中学习出数据的“内在”结构。
在无监督学习中,最实用也是最具代表性的方法就是聚类(cluster)。
例如我们可以寻找一群人(黄种人里面),每个人都有一些数据来描述(口音,饮食偏好,...)等,那么我们通过这些特征,我们就可以粗略的得出不同的簇(cluster)。而这些簇的概念是通过机器学习的方式自动形成的可能对应一些潜在的概念。在这个例子中我们根据提供的数据就可以简单的推断出到底是北方人还是南方是或者是那个省份的人。
这就是聚类。我们可以通过数据将其具有相似结构的数据放在一个簇里面。
当然,正常的时间中,监督学习和非监督学习之间还存在一种半监督学习(semi-supervised)。
在测试过程中,我们希望的是精确率越高越好,但是,在这个过程中,我们还需要学得的模型具有很好的“ 泛化能力 ”。也就是说,我们的模型不应该只是仅仅在训练集、测试集上有很好的预测能力,同时还要求这个模型对新产生的数据或者新来的数据具有较好的预测能力,这就是所谓的泛化。
假设空间
归纳 (induction)
induction and deduction 是科学推理的两大基本手段。
- 归纳
-
从特殊到一般的“泛化”(generalization)的过程叫归纳,即从具体的事实归结出一般性规律
例子,从样例中学习出一个模型,这样的过程就是一个归纳的过程。也叫作“归纳学习”。
演绎 (deduction)
- 演绎
-
从一般到特殊的“特化”(specialization)的过程,即从基础原理忒远出具体状况。
例如,在数学公里系统中,基于一组公理和推理规则推导出与之相洽的定理,这就是演绎。
归纳偏好
其实也就是过拟合(overfiting)和 underfiting(欠拟合)的问题。这也是对我们训练出来的模型是否能很好的适应新来的数据集得过程。
- 奥卡姆剃刀(Occam's razor)
-
若有多个假设与观察一致,则选择最简单的哪个。
没有免费午餐(NFL: No Free Lunch Theorem)