数据预处理之独热编码（One-Hot Encoding）（转载）

数据预处理之独热编码（One-Hot Encoding）（转载）
问题由来

在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。

例如，考虑一下的三个特征：

["male", "female"]

["from Europe", "from US", "from Asia"]

["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示，效率会高很多。例如：

["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]

["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]

但是，即使转化为数字表示后，上述数据也不能直接用在我们的分类器中。因为，分类器往往默认数据数据是连续的，并且是有序的。但是，按照我们上述的表示，数字并不是有序的，而是随机分配的。

独热编码

为了解决上述问题，其中一种可能的解决方法是采用独热编码（One-Hot Encoding）。

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。

例如：

自然状态码为：000,001,010,011,100,101

独热编码为：000001,000010,000100,001000,010000,100000

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

这样做的好处主要有：
1. 解决了分类器不好处理属性数据的问题
2. 在一定程度上也起到了扩充特征的作用
物理意义：

独热编码（哑变量 dummy variable）是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。举例来说，如果定义颜色变量“ 红= 1，黄=2，蓝=3”，相当于在向量空间中定义了 “红 < 黄 < 蓝”，这与事实是不符的，并且每个值到圆点的距离是不同的，这会影响到基于向量空间度量算法的效果。

重新定义了以后，我们由一个变量，变成了好多个变量，每一个变量距离原点的距离都是一样，都是在相应坐标轴上的。避免了认为的造成了特征的大小的问题。
作者：赵熙
链接：https://www.zhihu.com/question/62555721/answer/204625917
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

举例

我们基于python和Scikit-learn写一个简单的例子：

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

enc.transform([[0, 1, 3]]).toarray()

输出结果：

array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])

转自：http://blog.sina.com.cn/s/blog_5252f6ca0102uy47.html
相关阅读:
awk,seq,xarg实例使用
 Docker安装yapi
基于阿里搭载htppd访问
 锐捷结课作业
 基于centos7搭建kvm
基于django实现简易版的图书管理系统
 python 自定义log模块
 Interesting Finds: 2008.01.13
Interesting Finds: 2008.01.24
Interesting Finds: 2008.01.17
原文地址：https://www.cnblogs.com/shixisheng/p/6633516.html