• 数据归一化(标准化)


    数据归一化

    数据预处理中,标准的第一步是数据归一化。虽然这里有一系列可行的方法,但是这一步通常是根据数据的具体情况而明确选择的。特征归一化常用的方法包含如下几种:

    • min-max标准化
    • 逐样本均值消减(也称为移除直流分量)
    • Z-score

      标准化(使数据集中所有特征都具有零均值和单位方差)

    min-max标准化(Min-Max Normalization)(线性函数归一化)

    定义:也称为离差标准化,是对原始数据的线性变换,使得结果映射到0-1之间。

    本质:把数变为[0,1]之间的小数。

    转换函数:(X-Min/(Max-Min)

    如果想要将数据映射到[-1,1],则将公式换成:(X-Mean/(Max-Min)

    其中:max为样本数据的最大值,min为样本数据的最小值,Mean表示数据的均值。

    缺陷:当有新数据加入时,可导致max和min的变化,需要重新定义。

    Z-score标准化

    定义:这种方法给与原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1.

    本质:把有量纲表达式变成无量纲表达式。

    转换函数:(X-Mean)/(Standard deviation)

    其中,Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

    逐样本均值消减

    如果你的数据是平稳的(即数据每一个维度的统计都服从相同分布),那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

    Eg:对于图像,这种归一化可以移除图像的平均亮度值 (intensity)。很多情况下我们对图像的照度并不感兴趣,而更多地关注其内容,这时对每个数据点移除像素的均值是有意义的。

    注意:虽然该方法广泛地应用于图像,但在处理彩色图像时需要格外小心,具体来说,是因为不同色彩通道中的像素并不都存在平稳特性。

  • 相关阅读:
    AC自动机模板2(【CJOJ1435】)
    AC自动机模板1(【洛谷3808】)
    【HDU 2063】过山车(二分图最大匹配模板题)
    矩阵快速幂
    Trie树
    AC自动机
    高斯消元法
    KMP算法 Next数组详解
    端口映射
    最全面的HashMap和HashTable的区别
  • 原文地址:https://www.cnblogs.com/jiangkejie/p/10103580.html
Copyright © 2020-2023  润新知