现有一些关于西瓜的数据
(色泽=青绿,根蒂=蜷缩,敲声=浑响)、(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)
每对括号内都是一条记录,“=”意思是“取值为”
这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”
反应事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”,称为“属性”或“特征”,属性上的取值称为“属性值”,属性张成的空间,称为“属性空间”或“样本空间”
例如我们把“色泽”“根蒂”“声响”作为三个坐标轴,把他们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例成为一个“特征向量”。
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成
训练过程中使用的数据称为“训练数据”,其中每个样本成了一个“训练样本”,训练样本组成的集合称为“训练集”。
如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅有前面的示例数据显然是不够的。要建立这样的关于“预测”的模型,我们需获得训练样本的“结果”信息,例如((“色泽=青绿,根蒂=蜷缩,敲声=混响),好瓜)
这里关于示例结果的信息,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。