• Data Mining --- Preprocessing


    1.数据描述:

    均值mean(x)=1/n*Σxi,加权均值wieghted-mean(x)=Σwixi/Σwi;中值median;众数mode。经验公式:mean-mode=3*(mean-median)。1/4和3/4分位数;总体方差σ和样本方差s。

    image

    2.数据清理:

    对缺失数据忽略/填充,对噪声数据进行平滑(装箱Binning,回归Regression,聚类Clustering)

    a.等宽装箱(distance),等深装箱(frequency)

    image

    b.回归

    image

    c.聚类

    image

    3、数据转换(去量纲)

    a.最小值-最大值标准化:

    image

    b.Z-score标准化:

    image

    c.小数点标准化:

     image

    4.数据集成(相关分析、卡方检验)

    a.相关性系数:值越大,相关性越大

    image

    b.卡方检验:值越大,相关可能性越大

    image

    image

    image

    5.数据归约

    a.数据放聚集

    image

    b.维归约(特征选择):向前逐步选择(每次选最好的属性),向后逐步删除(每次删最差的属性),决策树归纳(由决策树选择属性)。

    c.数据压缩(离散小波变换DWT,由平滑和平滑-差数据集重构数据)

    *wavelet小波变换:适合高维数据

    image

    其中fai(t)是一个小波,等价描述(局部化):

    image

    image

    一个单个小波函数fai(t)的平移与伸缩构成一个小波簇:

    image

    a为伸缩参数,b为平移参数,称fai(t)为母小波。定义小波变换为:

    image

    若满足其L2距离平方和有界,则称fai为基小波。

    应用离散小波变换一般使用分层金字塔算法:

    a.输入数据响亮的长度L为2的整数幂

    b.变换涉及两个函数,第一个函数使数据平滑,第二个进行加权查分产生数据的细节特征

    c.两个函数作用输入数据对,产生两个长度为L/2的数据集,分别代表输入数据低频(平滑)和高频内容。

    d.两个函数递归地作用于前面循环得到的数据集,指导结果数据集的长度为2

    e.由以上迭代得到的数据集中选择值,指定其为数据变换的小波系数

    *主成分分析PCA:适合稀疏数据

    进行特征值分解,并降序排列,保留特征值较大的特征向量作为主要成分来近似。

    5.数值归约

    a.回归和对数线性模型近似

    b.直方图

    c.聚类

    d.选样:简单选样(有放回bootstrap/无放回)、聚类选样、分层选样。

  • 相关阅读:
    团队与领导力健康检查 | 体检表
    如何改变组织文化
    如何在各种文化背景下成功敏捷
    OKR痛点与误区 | 敏捷家分享007
    Scrum培训感想
    如何讲好故事
    Lc70_爬楼梯
    Lc641_设计循环双端队列
    Lc32_最长有效括号
    Lc239_滑动窗口最大值
  • 原文地址:https://www.cnblogs.com/jizhiyuan/p/3465918.html
Copyright © 2020-2023  润新知