• 学习笔记64_机器学习


    机器学习比较基础的任务,就是分类:

    一般的分类办法,就是尽可能测量所有可测得属性,或者特别重要的属性(又称为特征),并且由 人类 评判这些特征是属于什么类别。 这样的 [特征-类别]又叫训练样本。

    例如:鸟类的 “特征-类别”训练样本

    重量(特征1) 翅宽(特征2) 颜色(特征3)  是/否有脚蹼(特征4) 种类(目标变量)
    1000 125 灰色 鸟类1
    3000 200 棕色 鸟类2

     

     

     

     

    *在分类算法中目标变量的类型通常是离散的,二回归算法中通常是连续的。训练样本集必须确定知道目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。

    机器学习的另一任务,就是回归,主要用于预测数值型数据。

    *分类和回归,属于监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。如果想要预测目标变量的值,则可以选择监督学习。如果确定使用监督学习,下一步就要确定目标变量的类型,如果目标变量是离散型,

    像上面的鸟类,则选择分类算法;如果是连续型,如0~100,则选择回归算法。

    *而非监督学习,就是数据没有类别信息,也不会给定目标值。如果不想预测目标变量的值,可以选择非监督学习算法。如果要仅仅想要将数据划分为离散的组,则使用聚类算法;除此之外,还需要估计数据与每个分组的相似程度,则需要密度估计算法。

    *在非监督学习中,将数据集合分成由类似的对象组成的多个类的过程,称聚类。将寻找描述数据统计值得过程,称为密度估计。

    *机器学习的步骤:1.收集数据 2.整理数据,形成一定的数据结构 3.分析输入数据(主要是过滤,或者将数据降维,将三维降二维,二维降一维等等) 4.训练数据 5.测试算法(内符合,外符合)6.使用算法

    监督学习的用途  
    K-近邻算法 线性回归
    朴素贝叶斯算法 局部加权线性回归
    支持向量机 Ridge回归
    决策树 lasso最小回归系数估计

     

     

     

     

     

    无监督学习的用途  
    K-均值 最大期望算法
    DBSCAN Parzen窗设计

     

     

     

     

     

  • 相关阅读:
    拉格朗日插值模板题 luoguP4871
    FFT P3803 [模板]多项式乘法
    codeforces #629 F
    codeforces #629 E-Tree Queries
    数学—线性基
    codeforces #629 D.Carousel
    luogu P1447_能量采集 (莫比乌斯反演)
    luogu P2257- YY的GCD (莫比乌斯反演)
    luogu P2522-Problem b (莫比乌斯反演)
    luogu P3455 (莫比乌斯反演)
  • 原文地址:https://www.cnblogs.com/pylblog/p/8338121.html
Copyright © 2020-2023  润新知