• 数据分析之数据标准化


     

      数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。除了用作模型计算,标准化的数据还具有直接计算并生成复合指标的意义,是加权指标的必要操作。

    • 实现中心化和正态分布的Z-Score

    转换公式:

    其中x表示原数据,x' 表示转化后的数据,mean表示样本均值,std表示样本的标准差。

      这种方法适用于大多数的数据,也是很多工具默认的标准化方法。标准化后的数据以0为均值,1为方差的正态分布。但是Z-Score是一种中心化的方法,会改变数据原有的分布结构,不适合对稀疏数据做处理

    • 实现归一化的Max_Min

    转换公式:

    其中x表示原数据,x' 表示转化后的数据,Xmin表示样本中的最小值,Xmax表示样本中的最大值。

      这种方法应用也很广泛,标准化的数据会落在[0, 1]区间,这种方法可以使得数据落在一定区间,还能较好的保持原数据结构。

  • 相关阅读:
    第五篇
    第四篇
    PAT Basic 1094 谷歌的招聘 (20 分)
    PAT Basic 1093 字符串A+B (20 分)
    Dubbo 04 服务化最佳实现流程
    Dubbo 03 Restful风格的API
    Dubbo 02 微信开发
    Dubble 01 架构模型&start project
    PAT Basic 1020 月饼 (25 分)
    PAT Basic 1019 数字黑洞 (20 分)
  • 原文地址:https://www.cnblogs.com/catpainter/p/8784513.html
Copyright © 2020-2023  润新知