• 数据挖掘——认识数据


    一、数据集有数据对象组成。一个数据对象(样本、实例、数据点、对象、数据元组)有代表一个实体。

    二、属性类型

    属性是一个数据字段,表示数据对象的一个特征。属性可以是:标称、二元、序数、数值

    观测是给定属性的观测值。

    1、标称属性:一些对象的名称。

    2、二元属性:布尔属性。

    3、序数属性:值之间存在有意义的程度评定。

    4、数值属性:存在大小的定量。(区间标度、比率标度)

       { 

        区间标度:可以比较合定量之间的差。没有固有的零点。

        比率标度:有固有的零点,可以计算倍数比例。

       }

    5、离散属性:有限或者无限可数个值,可以不用整数表示。

    6、连续属性:数值属性,一般用浮点数值。

    7、数学期望:均值。

    三、基本统计描述

    基本统计描述可以用来识别数据的性质,筛选不符合主要性质的数据(噪声和离群点)

    基本统计描述大体可分为:中心趋势、数据散布、图形显示

    1、中心趋势:

          均值—平均值

          中位数—最中间位置的数值

          众数—出现次数最多的数

          中列数—最值的均值

    2、数据散布:

          极差—最大值和最小值的差值

          分位数:属性值与概率的对应关系。概率:p=1/2N,0<p<1。

          四分位数—数值依次大小排序,四等分

          四分位数极差—Q3(0.75处的值)-Q1(0.25处的值)

              五数概括—Min,Q1,中位数,Q3,Max

          盒图—  Min----------|Q1      |中位数      Q3|-------------------Max    

          方差—各个数据与平均值查的平方的平均值。属性和均值的偏离程度。

          标准差—方差的平方根      

    3、图形显示:

          条形图(柱形图、频率直方图):频率数据展示。

          饼状图、分位数图、分为数-分位数图、

          散点图:两个属性的关系趋势。

                                      

    四、数据的相似性和相异性

    1、数据矩阵:对象与属性的数组,即N个对象*P个属性

      例如: Name    Age    Sex

                     A          16       1   —对象O1

          B          16       1   —对象O2

          C          16       1   —对象O3

                 [   O1Name ,O1Age,O1Sex 

          O2Name ,O2Age,O2Sex 

          O3Name ,O3Age,O3Sex ]

    2、相异性矩阵:对象与对象的数组,即N个对象*N个对象。N个对象两两之间的相近度。

      例如: Name    Age    Sex

                     A          16       1   —对象O1

          B          16       1   —对象O2

          C          16       1   —对象O3

                 [   0

          d(2,1)   0

          d(3,1)   d(3,2)  0   ]

    d(i,j)是对象i与j之间的相异性度量。值越大差别越大。反之,相似性度量sim(i,j)=1-d(i,j)

    下面就具体解释一下d(i,j)................

    (1)标称属性的邻近性度量:用不匹配率来计算。公式: d(i,j)=(p-m)/p  

        p—属性总数,m—相同属性数。p-m即不相同的属性数。 

    (2)布尔属性的邻近性度量:

       

    对象i                                                                    对象j
      1 0 sum
    1 q r q+r
    0 s t s+t
    sum q+s r+t p=q+s+t+r

           

        现在我们找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)

      反之,相异性,就是不一样的度量值.。即,s和r,d(i,j)=(s+r)/p

      当然当前我们计算的是对称的二元相异性。什么是对称的二元属性?无论是否,现实中都具有意义和重要性,同等重要。

      接下来,非对称的二元相似性,假设,布尔值为0的在现实生活中没有太大的意义。

      这样,非对称的二元相似性:sim(i,j)=q/p,因为原来的相似性可取值是:q和t,但是t没有太大的意义。

    (3)数值属性的邻近性度量:欧几里得距离、曼哈顿距离、闵可夫斯基距离。。。

      对于数值属性的邻近性计算,首先争取可以缩小数值域。比如[100,101]---->[0.1,0.101]

      欧几里得距离:两个对象被p个对象所描述。即,i=(Xi1,Xi2...,Xip)   ,    j=(Xj1,Xj2...,Xjp)  

      那么两个对象的欧几里得距离:d(i,j)=sqrt( (Xi1-Xj1)^2+(Xi2-Xj2)^2 )

      这样得出欧几里德有下面几个特征:

      d(i,j)>=0    ;     d(i,i)=0     ;     d(i,j)=d(j,i)   ;

      d(i,j)<=d(i,k)+d(k,j)    

       

  • 相关阅读:
    2.如何搭建MQTT环境
    1.如何安装maven
    4.线程同步-未使用线程同步的生产者/消费者关系
    3.线程的优先级和线程调度
    2.如何使用matlab拟合曲线
    1.如何安装matlab2016a
    2.线程状态:一个线程的声明周期
    Oracle"TNS监听程序找不到符合协议堆栈要求的可用处理程序"解决方案
    快速登录MySQL数据库
    数据仓库模型建设基础及kimball建模方法总结
  • 原文地址:https://www.cnblogs.com/sunchong/p/3940566.html
Copyright © 2020-2023  润新知