• Python3玩转儿 机器学习(1)


    机器学习的基础概念

    数据

    • 著名的鸢尾花数据 https://en.wikipedia.org/wiki/lris_flower_data_set

     lris setossa      lris versicolor     lris verginica

              lris setossa                                    lris versicolor                                         lris verginica

    下面是鸢尾花的数据:

     

    • 数据整体叫数据集(data set)
    • 每一行数据称为一个样本(sample)
    • 除最后一列,每一列表达样本的一个特征(feature)
    • 最后一列,称为标记(label)

    第i个样本行写作 ,也叫特征向量。第i个样本第j个特征值 第i个样本的标记写作

    为了可视化特征方便,我们只抽取出特征中的前两个特征,其中萼片的长度作为横轴,萼片的宽度作为纵轴。

    绘制下图:

    对于每一个样本来说都会在坐标系中表示一个点,假设我们有三个特征,就可以在三维空间中表示它,同理如果有1000种特征,就可以在1000维的空间中表示它,而这个绘制样本的空间我们称它为特征空间(feature space)

    通过可视化绘制样本点后,我们可以比较轻易的绘制出一根直线,红色样本在直线的一边而蓝色样本在直线的另一边。

    分类任务本质就是在特征空间切分,在高维空间同理。

    而鸢尾花拥有4个特征,应该是在4维特征空间中分析。

    特征可以很抽象

    • 图像,每一个像素点都是特征
    • 28*28的图像有28*28=784个特征
    • 如果是彩色图像特征更多
  • 相关阅读:
    jquery学习整理2 管理jQuery包装集
    _#结构还是内容
    【兼容】透明背景
    ☀【CSS3】文本阴影 textshadow
    ☀【CSS3】文本描边 textstroke / 文本填充色 textfillcolor
    ☀【zindex】
    _#【布局】block 与 inline 都有哪些元素
    【兼容】下划线跑出来啦
    【js】document.selection.createRange().text
    _#【语义】推荐使用的元素
  • 原文地址:https://www.cnblogs.com/taoke2016/p/8905933.html
Copyright © 2020-2023  润新知