机器学习基本概念

现有一些关于西瓜的数据

（色泽=青绿，根蒂=蜷缩，敲声=浑响）、（色泽=乌黑，根蒂=稍蜷，敲声=沉闷）

每对括号内都是一条记录，“=”意思是“取值为”

这组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为一个“示例”或“样本”

反应事件或对象在某方面的表现或性质的事项，例如“色泽”“根蒂”，称为“属性”或“特征”，属性上的取值称为“属性值”，属性张成的空间，称为“属性空间”或“样本空间”

例如我们把“色泽”“根蒂”“声响”作为三个坐标轴，把他们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置，由于空间中的每个点对应一个坐标向量，因此我们也把一个示例成为一个“特征向量”。

从数据中学得模型的过程称为“学习”或“训练”，这个过程通过执行某个学习算法来完成

训练过程中使用的数据称为“训练数据”，其中每个样本成了一个“训练样本”，训练样本组成的集合称为“训练集”。

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型，仅有前面的示例数据显然是不够的。要建立这样的关于“预测”的模型，我们需获得训练样本的“结果”信息，例如（（“色泽=青绿，根蒂=蜷缩，敲声=混响），好瓜）

这里关于示例结果的信息，例如“好瓜”，称为“标记”；拥有了标记信息的示例，则称为“样例”。

相关阅读:
CSP-S2020总结
题解-P6687 论如何玩转 Excel 表格
题解-UVA12995 【Farey Sequence】
题解-P4159 [SCOI2009] 【迷路】
题解-SP2916【GSS5
102. 二叉树的层序遍历
力扣 160 相交链表快慢指针双指针
3. 无重复字符的最长子串滑动窗口
最大连续1的个数 III
B树和B+树

原文地址：https://www.cnblogs.com/ccut-ry/p/13730240.html