• Building Machine Learning Systems with Python 2


    1>监督学习(分类):先让机器学习一下每种花朵的样本数据,然后让他根据这些信息,对未标志出花朵种类的图像进行分类。

    2>特征:我们把数据中所有测量的结果都叫特征。

    2>交叉验证:极端的叫去一法(leave-one-out)从训练集中拿出一个样本,并在缺少这个样本的数据上训练一个模型,然后看模型是否能够对这个样本正确分类

    3>分类模型的组成:

      模型结构:采用一个阀值在一个特征上进行划分。

      搜素过程:尽可能多的尝试所有特征和阀值的组合。

      损失函数:用他来确定哪些可能性不会太差。

    4>特征工程(feature engineering):好特征的目标是在重要的地方取值不同,不重要的地方不变。

      特征选择(feature selection)

    5>最邻近分类:考虑到每个样本是由它的特征所表示的(它是N维空间中的点),我们可以计算样本之间的距离。

    6>特征归一单位:归一到Z值(z-score):特征离它的平均值有多远。

    7>二类分和多分类

    <2>聚类:是一种安置数据项的方法,使相似的数据项处于同一个簇中,不相似的数据项分在不同的簇里。用到Scikit库。

        一般有扁平聚类和层次聚类

        扁平聚类:会将帖子分成一系列相互之间没有关联的簇。需要预先指定簇的个数。

        层次聚类:层次聚类可以构造出簇之间的层次关系,相似的簇会汇集到一个超级簇中,递归下去,直到只剩下一个簇。并不需要指定簇的个数。

  • 相关阅读:
    /proc/interrupts 和 /proc/stat 查看中断的情况
    publish and submit
    camera shading比例
    高负载linux调优
    linux网络socket 接口转
    深入分析linux调度机制
    大型网站架构之分布式消息队列
    Linux下高并发socket最大连接数所受的各种限制(详解)
    Linux服务器高并发实践经历
    oracle: 分割字符串,或者查找字段里面的关键字(关键字1,关键字2,关键字3)
  • 原文地址:https://www.cnblogs.com/michael2016/p/5204128.html
Copyright © 2020-2023  润新知