• (五)数据编码是干什么


    一、数据编码主要三个

    1. 数据正规化(Data Normalization)

    • 将数据重新分布在一个特定的范围内(0~1)
      • 年龄 VS. 年薪
    • 数据正规化的方法
      • 极值正规化(Min-Max Normalization)
      • Z-分数正规化(Z-Score Normalization)

       2.数据一般化(Data Generalization)

    • 数据的概念阶层(Concept Hierarchy)
      向上提升
        • 会员地址用城市或是北中南东四区取代

    3.数据精简  

    • 记录精简(Record Reduction)
    • 域值精简(Value Reduction)
    • 字段精简(Attribute Reduction)

    二、数据正规化常用方法

    1.极值正规化(Min-Max Normalization)

        

        2.Z-分数正规化(Z-Score Normalization)

     

    三.数据一般化的常用方法

     数据型态的转换(Data Type Transformation)---两种形态数据之间的互转:类别转数值型;数值型转类别
    • 1.类别型转换成数值型数据
      • 连续性指派(Continuousness Arbitrary)
        • 学历(以入学年龄取代):小学(6)、国中(12)、高中(15)、大学(18)、硕士(22)
        • 性别(以逾期概率取代) :男、女


    •2. 数值型转换成类别型数据
      • 数据离散化(Data Discretization)
      • 利用集群法将数值型态数据分群,接着将群集取合适名称,再利用群集的名称代替群集内所包含的数值型数据,转换成类别型数据

    •3. 为什么要数值一般化?

      数值型字段常常模型不稳定的来源之一。

    • 常常我们会发现分类模型在训练数据集的预测准确度很高,但在测试数据集中的准确度却大幅度下滑
    • 其中一个相当大的原因就是,许多的输入字段(尤其是数值型输入字段),在目标字段值上的分布,训练数据集与测试数据集的差异很大

      •4. 数值一般化的优点?

    对数值字段作离散化,有下列数个优点
      • 1可使数据精简,降低数据的复杂度,让数据更容易被解释
      • 2可支持许多无法处理数值型字段的分类算法
        • 例如,贝氏分类(Bayesian Classification)算法、以关联规则(Association Rules)为基础的分类算法等
      •3 可提高分类器的稳定性,进而提升分类模型的准确度
      •4可找出输入字段在目标字段上的趋势(Trend),有助于未来的解

      • 5 然而,数值字段离散化除了让数据精简、稳定模型外,如何让分析人员易于理解与解释也是非常重要的  

              一个易于理解与解释的离散化结果是,输入字段在目标字段上能够看出明显的趋势性(Trend)

    四、数据一般化之--数值转类别方法

      分离技术(Discretization):切割出数个区间来取代值域上众多的数据数值

    • 依据对数据的认知、专家的建议、普遍存在的现象,将数据数值分离出数个区间
    • 年龄可以分离出下列三个区间,(0, 30]、(30,60]、(60,120],并分别对应到 ‘青年’、‘中年’ 和 ‘老年’ 等三个数据数值

    常用的分离技术:装箱法(Binning Method)
      • 1.等宽(Equal-Width-Interval)装箱法

    在使用者所给定之箱子个数n下,依据排序过后数据数值之最大值与最小值切割成n个等宽箱子
      • 以年龄而言,在使用者所给定之箱子个数为3下,每一个箱子的宽度为 (36-28+1) /3 = 3
        • 箱子一:28, 29, 30
        • 箱子二:31, 32
        • 箱子三:35, 36


      • 2.等分(Equal-Frequency-Interval)装箱法
        • Equal-Size-Interval Binning Method
        • Histogram Equalization Binning Method

    • 在使用者所给定之箱子个数n下,依据数据数值的数量切割成n个数量相等箱子

    • 会员数据表中总共有7笔数据记录,在用户所给定之箱子个数为3下,每一个箱子可装载之数据笔数为为7/3 = 2.33,经四舍五入后为2
      • 箱子一:28, 29
      • 箱子二:30, 31
      • 箱子三:32, 35, 36

     

  • 相关阅读:
    常用的设计模式汇总
    设计模式总结
    C# WinForm文章收集
    SQL Server 2012/2016/2017 新增函数
    SQL Server 日期函数大全
    【BZOJ3622】已经没有什么好害怕的了
    【SDOI2009】Bill的挑战
    【HDU4507】恨7不成妻
    BSOJ 2423 -- 【PA2014】Final Zarowki
    BSOJ 4591 -- 【JLOI2015】城池攻占
  • 原文地址:https://www.cnblogs.com/liyuewdsgame/p/13200951.html
Copyright © 2020-2023  润新知