• 数据挖掘:概念与技术--笔记1--度量数据的相似性与相异性


    基本概念

    数据矩阵

    表示 n个对象 × p个属性

    相异性矩阵

    表示n个对象两两之间的临近度   n×n的矩阵

    d(i,j)表示对象i与对象j之间的相异性

    1 标称属性的临近性度量

    计算公式:

    m: 匹配的数目(即i和j取值相同状态的属性数)

    p:  刻画对象的属性总数

    令p=1 (主要目的是使相异矩阵的值在[0,1]之间),相同时为1,不同时为0

    相异矩阵为:

    相似性:

    2 二元属性的临近性度量

    (1)对称的二元相异性

    其中q,r,s,t的含义见表2.3

    (2)非对称的二元相异性

    可以看出非对称的二元相异性是忽略t的,即忽略属性均为0的

    例:

    y(yes) p(positive) 值为1,n(no, negative) 值为0

    其中name是对象标示符,gender是对称属性,其余均为非对称属性

    对于非对称属性进行计算:

    d(Jack,Jim)=(1+1)/(1+1+1)=0.67

    d(Jack,Mary)=(0+1)/(2+0+1)=0.33

    d(Jim,Mary)=(1+2)/(1+1+2)=0.75

    3 数值属性的相异性

     介绍几个基本概念

    一般计算距离之前数据应该规范化

    欧几里得距离

     

    加权的欧几里得距离

    曼哈顿(城市块)距离

     

    闵可夫斯基距离

    其中h是实数 h≥1

    上确界距离

     (1)序数属性的临近性度量

    计算步骤:

    第一步:把test-2的每个值替换为它的排位,则四个对象将分别被赋值为3,1,2,3

    第二步:按照公式 Mf表示总的排位,rif表示第i个对象的排位 (此公式的目的是将每个属性的值域映射到[0.0,1.0])

    所以排位1的值为0,排位2的值为0.5,排位3的值为1

    第三步:可以使用比如欧几里得距离算出相异性矩阵

    (2)数值属性的临近性度量

    对test-3计算

    maxhxh=64,minhxh=22

    4 混合类型属性的相异性

     把所有有意义的属性转换到共同的区间[0.0,1.0]上

     

    结果

     

     5 余弦相似性

    对于稀疏矩阵,例比较文档或针对给定的查询词向量对文档排序

    例:

  • 相关阅读:
    Python 面向对象3-类变量与实例变量
    Python面向对象2-类和构造方法
    Linux LVM动态扩容
    Anslib 使用错误归纳
    Linux Centos7安装最新anslib
    Linux 配置最新的epel源
    Linux centos7安装python3并且不影响python2
    docker compose启动服务超时重启记录
    spring cloud学习(三)使用Ribbon实现客户端负载均衡
    spring cloud 学习(二)关于 Eureka 的学习笔记
  • 原文地址:https://www.cnblogs.com/qicaide/p/5913845.html
Copyright © 2020-2023  润新知