• (一)数据相关


     

    数据类型

    • 特征属性类别:名词性(无序性,红、黄、蓝)、二元特征(正、负)、有序特征(大中小) 、数值性特征(量化数据,可计算:1.interval-scaled;2.ratio-scaled)、有/无序

    数据的基本统计学描述

    • 数据整体趋势描述

    1.(加权)均值:

    2.中值:快速近似计算,对数据按大小分组后实现

    3.众数:可存在多个

     

    三种代表性数据分布的整体趋势:

     

    •  数据发散程度描述

    1.范围:max()-min()

    2.分位数:对有序分布的数据等间隔取点,将其划分为等间隔的子集,如下图四分位点

            分位点间距离:IQR=Q3-Q1

         分离异常数据:outliers<Q1-1.5*IQR或outliers>Q3+1.5*IQR

    3.箱形图:利用五点数据[min,Q1,median,Q3,max]。图中箱形中的实线分别表示Q1、median、Q3,两端链接虚线的实线表示min与max

     4.方差、标准差

    • 数据图形化描述

     1.分位点图

     2.柱状图

     3.散点图

     

    数据的可视化

    1.基于像素点的可视化技术:利用像素点的颜色代表不同维度特征的数值,缺点在于无法帮助我们有效了解多维数据的分布情况

    2.几何投影可视化技术:1)散点图配不同几何图案;  2)当数据维度高于四维时,可借助散点图矩阵实现可视化;  3)更高维数据,可视化利用并行坐标实现可视化,缺点是不能应用与大规模数据;

         

    3.基于图标的可视化

    4.分层可视化技术:将所有维度的数据划分为子空间后进行可视化,代表性的,1)n-vision;  2)tree-maps

    5. 数据及其复杂关系的可视化:1.tag-cloud

     

    数据的相似性与差异性度量:    

     1.名词属性特征的(不)相似度量:按不匹配比例

    2.二元属性的(不)相似度量:1.对称的;2. 非对称的,即Jaccard系数;

          或       

    3.数值化属性的(不)相似度量:

    • 欧式距离

    • 曼哈顿距离

    • Minkowsiki距离:L_p norm, h>=1

    • 极限距离:

    4.有序性属性的(不)相似度量:将其按其排名大小映射到如下z_if后,使用数值化相似度量方法实现度量

     

    5.混合类型属性的(不)相似度量:1)同类型数据分组后进行挖掘; 2)变换不同类型属性的(不)相似数值到相似矩阵后,再去除缺失数据后综合计算

     

    6.余弦相似度:

    7.基于表示学习的相似度量: word2vec, node2vec等

     

     

     

     引用:

    [1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.

     

     

     

     

  • 相关阅读:
    线程安全(1)--demo1
    java--构造器与static
    I/O---读取txt文件----demo
    阳光餐厅--oracle---建表---danrong
    定位程序问题出现的原因工具-jstack
    守护线程
    线程的交互:互斥与同步
    正确的停止java中的线程
    使用GSON来生成JSON数据
    使用JSONObject类来生成json格式的数据
  • 原文地址:https://www.cnblogs.com/bytedance/p/9104848.html
Copyright © 2020-2023  润新知