1.1引言
喧闹的教室突然变得鸦雀无声,没有抬头的你第一反应就是老板进了教室,赶紧就收起了手里的手机。
结果抬头一看,老板果真进来了;或者有时候抬头一看,什么也没有,大家哈哈一笑。
为什么?为什么你没抬头看就想到会是老板进来了?
因为你以前有过相同或者相似的经历,也就是“经验”。
所以你再一次经历的时候,会根据经验预测到结果,并做出相应的反应。
与此相似的事情有很多,
我们看到天空变阴,刮起冷风,会知道马上要下雨了,如果要出门的话会想到要拿上伞。
我们能做出这些判断,是因为我们已经经历过很多次了,积累了许多“经验”。
正是对这些经验的利用,来对新情况做出判断的。
我们的父母家人总是自称“过来人”的身份,并常说“吃的盐比你吃的饭都多”。
我们思考其实质,其实就是说的他们经历过我们没有经历过的事情,他们有“经验”。
而获得经验的过程中难免会吃亏走弯路,也是一点一点学,最后才变得经验丰富。
运动员同样也是,需要一点一点学习,需要多次的训练,
才能积累更多的经验,在处理相同的事情时才能做出正确的判断。
所以,获得经验的过程也就是“学习”的过程,也就是“训练”的过程。
我们人类是这样基于经验处理事情的,而且这的确是一个不错的方式。
我们希望赋予机器人类的智慧——人工智能,就想能不能让机器掌握这种基于经验处理问题的方式。
答案是肯定的,并且已经有了很多先例。
那么首先就需要让机器获得经验,而获得经验的过程也就是学习的过程,所以就叫做“机器学习”。
在机器的世界里,“经验”的是以“数据”的形式存在的。
1.2基本术语
【获得数据:要进行机器学习,首先要有数据】
假定我们收集了一批关于西瓜的数据:
每对括号都是一条关于一个西瓜的记录,“$=$”意思为“是”
——————————————————————————————————————————
属性 / 特征
$swarrowqquadquaddownarrowqquadquadsearrow$
(色泽=青绿;根蒂=蜷缩;敲声=浊响) <-- 这条是一个“示例” / “样本”
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷) <-- 这是另一个“示例” / “样本”
(色泽=浅白;根蒂=硬挺;敲声=清脆) <-- 这又是一个“示例” / “样本”
……想象还有很多……
——————————————————————————————————————————
- “数据集”($dataset$):所有的这些西瓜的记录
- “示例”($instance$)或“样本”($sample$):其中每一条记录,也就是每一个西瓜的记录
- “属性”($attribute$)或“特征”($feature$):反映这个西瓜某些性质的事项,例如“色泽”,“根蒂”,“敲声”
- “属性值”($attribute value$):属性上的取值,例如“青绿”,“乌黑”
- “属性空间”($attribute spcae$)或“样本空间”($sample space$)或“输出空间”:属性张成的空间
例如我们把“色泽”,“根蒂”,“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。
- 由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”($feature vector$)
一般地,令 $D={x_i,x_2,...,x_m}$ 表示包含 $m$ 个示例的数据集,每个示例由 $d$ 个属性描述(例如上面的西瓜数据使用了三个属性),
则每个示例$x_i=(x_{i1},x_{i2},...,x_{id})$ 是 $d$ 维样本空间 $mathcal{X}$ 中的一个向量,$x_iin mathcal{X}$ ,
其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值,(例如上述第3个西瓜在第2个属性上的值是“硬挺”),
$d$ 称为样本 $x_i$ 的“维数”($dimensionality$)
【开始训练:有了数据,就开始训练数据获取经验】
- “学习”($learning$)或“训练”($training$):从数据中学得模型的过程
这个过程通过执行某个学习算法来完成。
- “训练数据”($training data$):训练过程中使用的数据
- “训练样本”(training sample):训练数据中的每个样本
- “训练集”(training set):训练样本组成的集合
1.3假设空间
1.4归纳偏好