• 第二章 认识数据 笔记


    一、数据对象与属性类型

    1、属性: 一个数据字段,表示数据对象的一个特征。(属性、维、特征、变量可以互换实用)
     
    2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...)属于标称属性。
        标称属性值可以用数字表示,如1,2,3等;但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值、中位数是没有意义的。众数是有意义的。
     
    3、二元属性:是一种标称属性,只有两种类别(状态):0和1,通常0表示该属性不出现,1表示出现。又称为布尔属性(true 和 false)。
        二元属性又分对称的和非对称的: 对称指两种状态具有同等价值且相同的权重,如性别(男、女);非对称是指状态的结果不是同样重要的,如病毒化验结果(阳性、阴性)。
     
    4、序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。序数属性通常用于等级评定调查。
    标称、二元和序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。
     
    5、数值属性:是定量的,他是可度量的量,用证书或实数值表示,数值属性可以是区间标度的或比率标度的。
        区间标度属性:属性用相等的单位尺度度量。区间熟悉的值有序,例如: 20度,15度(温度属性);
        比率标度属性:具有固定零点的数值属性,即一个值是另一个的倍数(比率)。比率值也是有序的,可以计算值之间的差、也能计算均值、中位数、众数。
     
    6、离散属性与连续属性:机器学习领域开发的分类算法通常把属性分类成离散或连续的。
        离散属性:具有有限或无限可数个值,可以用或不用整数表示,如头发颜色、婚姻状况都是有限个值,是离散的。
     
    二、数据的基本统计描述
        对于成功的数据预处理来说,把握数据的全貌是至关重要的。
        三类基本统计描述:
            中心趋势度量:度量数据分布的中部或中心位置,还有均值、中位数、众数和中列数。
            数据的散布:常见度量有:极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。   
                                                                                                                                        (可以用于识别离群点)
            图形显示可视化地审视数据:条图、饼图、线图、分位数图、分位数-分位数图、直方图、散点图
    1、中心趋势度量
        数据集“中心”的最常用、最有效的数值度量是(算术)均值
        也就是数据库中的SQL操作:avg()
     
        加权平均(加权算术均值):权重反映数值的意义、重要性或出现的频率:(权重W与值X对应)
        
     
        均值并非总是度量数据中心的最佳方法:对极端值(离群点)很敏感;解决方法可以使用截断均值:丢弃高低两个极端值(不一定是一个值,也可以是多个值)后的均值。
        中位数:更好度量数据中心(非对称数据)的方法,是有序数据值的中间值。
     
        众数:是另外一种中心趋势度量。是集合中出现最频繁的值。若具有多个众数的数据集是多峰的;另一种极端情况是如果每个数据值仅出现一次,则他是没有众数的。(一般对应与非对称数据
        中列数:数据集中最大和最小值的平均值
     
    2、度量数据散布:
        极差:集合的极差是最大值与最小值的差。
        分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
        2-分位数:是一个数据点,他把数据分布划分成高低两半,2-分位数对应于中位数。
        4-分位数:是三个数据点,他们把数据分布划分成4个相等的部分,使得每部分表示的数据分布的四分之一。
        100-分位数:称为百分位数,他们把数据分布划分成为100个大小相等的连贯集合。
     
        四分位数:第一个四分位数记作Q1,是第25个百分数为(数据集合25%的位置);第二个四分位数记作Q2,是第50个百分位数,作为中位数给出数据分布的中心;第三个四分位数记作Q3,是第75个百分位数(数据集合75%的位置)。
        四分位数极差(IQR):  IQR = Q3 - Q1
        五数概括:由中位数(Q2)、四分位数Q,Q3、最小和最大观测值组成。按次序为 Min、Q1、Median、Q3、Max。
        识别可疑的离群点的规则:通常挑选落在第三个四分位数之上或第一个四分位数之下  至少1.5倍IQR处的值。
    eg:
        方差和标准差:
     
    三、数据可视化
        数据可视化旨在通过图形表示 清晰有效地表达数据。
     
    四、度量数据的相似性和相异性
    2、标称属性的邻近性度量
        两个对象i,j的相异性计算公式:
            
    3、二元属性的邻近性度量
     
    q ,r ,s ,t 是表示两个对象在1,0下的属性个数(若某属性是i=1,j=1,则个数q+1)p=q+r+s+t 所有属性之和。
    两个对象i j的相异性:
    有时候,可以忽略两个对象均为0时的属性(无意义),则称为 非对称的二元属性 的相异性计算公式:
    相似性即为:
    sim(i,j)也称jaccard系数。
     
    4、数值属性的相异性:闵可夫斯基距离、欧几里得距离、曼哈顿距离
        欧几里得距离:
        曼哈顿距离: 指的是城市街区间的街区距离(横轴距离+竖轴距离)
        例子:
        闵可夫斯基距离:
    其中,h为实数,h>=1(该距离又称为Lp范数,p即为h)h=1时时曼哈顿距离,H=2时是欧几里得距离。
     
        上确界距离(又称Lmax,Loo范数和切比雪夫距离),是h->oo时闵可夫斯基距离的推广。
    (某个属性上的最大差值就是上确界距离)
     
    5、序数属性的邻近性度量
    序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。
     
    7、余弦相似性:是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。
    余弦值0意味着两个向量呈正交关系(90°),没有匹配。 值越接近1,夹角越小,向量之间的匹配越大。
  • 相关阅读:
    复数加法
    通过函数来实现复数相加
    声明一个类模板
    友元成员函数的简单应用
    将普通函数声明为友元函数
    引用静态数据成员
    对象的赋值
    对象的常引用
    有关对象指针的使用方法
    对象数组的使用方法
  • 原文地址:https://www.cnblogs.com/ss815367696/p/4029733.html
Copyright © 2020-2023  润新知