• 机器学习第二章复习


    基于距离的分类器

    基于距离的分类的基本概念

    把样本到每个类的距离作为决策模型,将测式样本判定为与其距离最近的类

    常见的几种距离度量

    欧氏距离(Euclidean Distance)

    n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量):

    曼哈顿距离(Manhattan Distance)

    n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:

    加权欧式距离

    对每维特征设置不同的权重

    MED分类器

    MED分类器是最小欧氏距离分类器
    距离衡量:欧氏距离
    类的原型:均值

    MED分类器的决策边界

    对于两个类来说MED分类器的决策方程为

    在高维空间中,该决策边界是一个超平面,垂直平分两个类原型的线

    MED分类器举例

    C1={(5,4),(7,0),(3.5,1),(4.5,3)}
    C2={(4,4),(8,5),(8,3),(12,4)}
    判断y=(4,5)所属的类别

    所以由图可得,y属于C1类
    但本图中,直观上y更接近于C2类。
    因为MED分类器没有考虑特征变化的不同以及特征之间的相关性。

    特征白化

    目的:将原始特征映射到新的一个特征空间,使得在新空间中特征的协方差为单位矩阵,从而去除特征变化的不同及特征之间的相关性
    将特征转化分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变化(白化)
    令W=W1W2
    解耦:通过W1实现协方差矩阵对角化,去除特征之间的相关性
    白化:通过W2对上一步变换后的特征再进行尺度变换实现所有特征具有相同方差
    得到W1:
    1、求协方差矩阵的特征值和特征向量
    2、由特征向量构建转换矩阵W1

    W2的求解:

    W的求解:

    W转化后的欧氏距离为

    为马氏距离

    欧氏距离和马氏距离

    马氏距离表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的。

    如果S−1是单位阵的时候,马氏距离简化为欧氏距离。
    马氏距离的缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

    马氏距离的优点

    马氏距离有很多优点: 马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
    当求距离的时候,由于随机向量的每个分量之间量级不一样,比如说x1可能取值范围只有零点几,而x2有可能时而是2000,时而是3000,因此两个变量的离散度具有很大差异
    马氏距离除以了一个方差矩阵,这就把各个分量之间的方差都除掉了,消除了量纲性,更加科学合理。

    如上图,看左下方的图,比较中间那个绿色的和另外一个绿色的距离,以及中间绿色到蓝色的距离

    如果不考虑数据的分布,就是直接计算欧式距离,那就是蓝色距离更近

    但实际上需要考虑各分量的分布的,呈椭圆形分布

    蓝色的在椭圆外,绿色的在椭圆内,因此绿色的实际上更近

    马氏距离除以了协方差矩阵,实际上就是把右上角的图变成了右下角

    MICD分类器(最小类内距离分类器)

    距离度量:马氏距离
    类的原型:均值
    判别公式如下:

    MICD分类器的决策边界

    对于二类分类而言,MICD分类器的决策边界位于到两个类的距离相等的面上即:




    MICD分类器的问题

    MICD分类器会选择方差较大的类

  • 相关阅读:
    对象的属性定义
    webpack中loader和plugins
    数据的去重方法
    将本地项目上传到github
    Lucene全文检索
    golang操作Rabbit
    Mysql主从同步
    MySQL回顾
    Failed to execute goal org.eclipse.jetty:jetty-maven-plugin:9.4.26.v20200117:run (default-cli) on project ssm-mybatis-plus: Failure
    maven资源导出问题
  • 原文地址:https://www.cnblogs.com/zhanglingxin/p/12828618.html
Copyright © 2020-2023  润新知