• 机器学习:绪论


    1.1引言

     喧闹的教室突然变得鸦雀无声,没有抬头的你第一反应就是老板进了教室,赶紧就收起了手里的手机。

    结果抬头一看,老板果真进来了;或者有时候抬头一看,什么也没有,大家哈哈一笑。

    为什么?为什么你没抬头看就想到会是老板进来了?

    因为你以前有过相同或者相似的经历,也就是“经验”。

    所以你再一次经历的时候,会根据经验预测到结果,并做出相应的反应。

    与此相似的事情有很多,

    我们看到天空变阴,刮起冷风,会知道马上要下雨了,如果要出门的话会想到要拿上伞。

    我们能做出这些判断,是因为我们已经经历过很多次了,积累了许多“经验”。

    正是对这些经验的利用,来对新情况做出判断的。

    我们的父母家人总是自称“过来人”的身份,并常说“吃的盐比你吃的饭都多”。

    我们思考其实质,其实就是说的他们经历过我们没有经历过的事情,他们有“经验”。

    而获得经验的过程中难免会吃亏走弯路,也是一点一点学,最后才变得经验丰富。

    运动员同样也是,需要一点一点学习,需要多次的训练,

    才能积累更多的经验,在处理相同的事情时才能做出正确的判断。

    所以,获得经验的过程也就是“学习”的过程,也就是“训练”的过程。

    我们人类是这样基于经验处理事情的,而且这的确是一个不错的方式。

    我们希望赋予机器人类的智慧——人工智能,就想能不能让机器掌握这种基于经验处理问题的方式。

    答案是肯定的,并且已经有了很多先例。

    那么首先就需要让机器获得经验,而获得经验的过程也就是学习的过程,所以就叫做“机器学习”。

    在机器的世界里,“经验”的是以“数据”的形式存在的。

    1.2基本术语

     【获得数据:要进行机器学习,首先要有数据】

    假定我们收集了一批关于西瓜的数据:

    每对括号都是一条关于一个西瓜的记录,“$=$”意思为“是”

              ——————————————————————————————————————————          

                                     属性 / 特征

                     $swarrowqquadquaddownarrowqquadquadsearrow$

    (色泽=青绿;根蒂=蜷缩;敲声=浊响)    <-- 这条是一个“示例” / “样本”

    (色泽=乌黑;根蒂=稍蜷;敲声=沉闷)    <-- 这是另一个“示例” / “样本”

    (色泽=浅白;根蒂=硬挺;敲声=清脆)    <-- 这又是一个“示例” / “样本”

    ……想象还有很多……

              ——————————————————————————————————————————

    • 数据集”($dataset$):所有的这些西瓜的记录
    • 示例”($instance$)或“样本”($sample$):其中每一条记录,也就是每一个西瓜的记录
    • 属性”($attribute$)或“特征”($feature$):反映这个西瓜某些性质的事项,例如“色泽”,“根蒂”,“敲声”
    •  “属性值”($attribute value$):属性上的取值,例如“青绿”,“乌黑”
    •  “属性空间”($attribute spcae$)或“样本空间”($sample space$)或“输出空间”:属性张成的空间

    例如我们把“色泽”,“根蒂”,“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。

    • 由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”($feature vector$)

    一般地,令 $D={x_i,x_2,...,x_m}$ 表示包含 $m$ 个示例数据集,每个示例由 $d$ 个属性描述(例如上面的西瓜数据使用了三个属性),

    则每个示例$x_i=(x_{i1},x_{i2},...,x_{id})$ 是 $d$ 维样本空间 $mathcal{X}$ 中的一个向量,$x_iin mathcal{X}$ ,

    其中 $x_{ij}$ 是 $x_i$ 在第 $j$ 个属性上的取值,(例如上述第3个西瓜在第2个属性上的值是“硬挺”),

    $d$ 称为样本 $x_i$ 的“维数”($dimensionality$)

    【开始训练:有了数据,就开始训练数据获取经验】

    • 学习”($learning$)或“训练”($training$):从数据中学得模型的过程

    这个过程通过执行某个学习算法来完成。

    • 训练数据”($training data$):训练过程中使用的数据
    • 训练样本”(training sample):训练数据中的每个样本
    • 训练集”(training set):训练样本组成的集合

    1.3假设空间

    1.4归纳偏好

  • 相关阅读:
    子程序的设计
    多重循环程序设计
    汇编语言的分支程序设计与循环程序设计
    代码调试之串口调试2
    毕昇杯模块之光照强度传感器
    毕昇杯之温湿度采集模块
    【CSS】盒子模型 之 IE 与W3C的盒子模型对比
    【css】盒子模型 之 概述
    【css】盒子模型 之 弹性盒模型
    【网络】dns_probe_finished_nxdomain 错误
  • 原文地址:https://www.cnblogs.com/ForTech/p/8546854.html
Copyright © 2020-2023  润新知