数据归一化的两种方法：最值归一化和0均值归一化

数据归一化的两种方法：最值归一化和0均值归一化
前言

在机器学习的算法训练数据前，一般要进行数据归一化，统一量纲。

以上图为例，样本间的距离被发现时间所主导，肿瘤大小就被忽略了。

将天换算成年之后，样本间的距离又被肿瘤大小所主导，发现时间被忽略了。
解决方法就是将所有数据映射到同一尺度。

最值归一化

将数据映射到0-1之间，适用于数据有明显边界的情况，如学生成绩，图片像素点等。

代码实现
```
import numpy as np

x = np.random.randint(0, 10, 10)
print(x)
print((x - np.min(x)) / (np.max(x) - np.min(x)))
```
输出结果为
```
[6 5 7 6 3 3 8 5 1 0]
[0.75  0.625 0.875 0.75  0.375 0.375 1.    0.625 0.125 0.   ]
```
都在0-1之间

0均值归一化

将数据映射到均值为0，标准差为1的分布中

mean表示数据的均值，S表示标准差

代码实现
```
import numpy as np

x = np.random.randint(0, 10, 10)
print(x)
x2 = (x - np.mean(x)) / np.std(x)
print(x2)
print(np.mean(x2))
print(np.std(x2))
```
输出结果为
```
[4 1 9 3 7 3 0 1 2 0]
[ 0.35355339 -0.70710678  2.12132034  0.          1.41421356  0.
 -1.06066017 -0.70710678 -0.35355339 -1.06066017]
0.0
0.9999999999999999
```
均值为0，标准差为1

sklearn中的数据归一化

sklearn是机器学习常用的第三方模块，封装了常用的机器学习算法。
```
import numpy as np
from sklearn.preprocessing import StandardScaler

x = np.random.randint(0, 10, 10)
x = np.array(x, dtype=float).reshape(2, 5)
print(x)
scaler = StandardScaler()
scaler.fit(x)
x = scaler.transform(x)
print(np.mean(x))
print(np.std(x))
```
StandardScaler就是sklearn提供的进行数据归一化的工具，内部也是使用0均值归一化的方法。
相关阅读:
DOM event beforeload
有关点击付费的十大失误－转载
 DOM 事件DOMContentLoaded
Git 系列之四：Git 进阶功能转载
 Qt webkit中单独编译JavaScriptCore
搜索知识与技巧集锦转载
 webkit中DOM 事件有多少
 Git 系列之三：Windows 下 Git 配置与使用指南转载
 简历：第一章：技术亮点如何写
 实战：第十三章：工作中熬夜加班学到的
原文地址：https://www.cnblogs.com/strongmore/p/14635438.html

最新文章
命令[35]
命令[24]
命令[28]
c++类继承的成员可见性
 命令[29]
命令[20]
命令[25]
testsdfdfdfffff
hdu 1969
hdu 2141

数据归一化的两种方法：最值归一化和0均值归一化

前言

最值归一化

代码实现

0均值归一化

代码实现

sklearn中的数据归一化