对分类型变量，进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder()

背景：

在拿到的数据里，经常有分类型变量的存在，如下：
球鞋品牌：Nike、adidas、 Vans、PUMA、CONVERSE
性别：男、女
颜色：红、黄、蓝、绿
However,sklearn大佬不能直接分析这类变量呀。在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是算法关键部分，而常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。于是，我们要对这些分类变量进行哑变量处理，又或者叫虚拟变量。
缺点：
当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。
In summary,
要是one hot encoding的类别数目不太多，可优先考虑。

一.pd.get_dummies()简单&粗暴

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
官网文档：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

输入：array-like, Series, or DataFrame
输出：DataFrame
主要参数说明：
data : array-like, Series, or DataFrame
prefix : 给输出的列添加前缀，如prefix="A",输出的列会显示类似
prefix_sep : 设置前缀跟分类的分隔符sepration，默认是下划线"_"
一般，我们输入data就够了。如果要专门关注Nan这类东东，可设置dummy_na=True，专门生成一列数据。
见下面的栗子：（简直不要太容易）

import numpy as np
import pandas as pd
data = pd.DataFrame({"学号":[1001,1002,1003,1004],
                    "性别":["男","女","女","男"],
                    "学历":["本科","硕士","专科","本科"]})
data

	学历	学号	性别
0	本科	1001	男
1	硕士	1002	女
2	专科	1003	女
3	本科	1004	男

pd.get_dummies(data)

	学号	学历_专科	学历_本科	学历_硕士	性别_女	性别_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix="A")

	学号	A_专科	A_本科	A_硕士	A_女	A_男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")

	学号	A+专科	A+本科	A+硕士	B+女	B+男
0	1001	0	1	0	0	1
1	1002	0	0	1	1	0
2	1003	1	0	0	1	0
3	1004	0	1	0	0	1

二.sklearn的崽一：LabelEncoder 将不连续的数字or文本进行编号

sklearn.preprocessing.LabelEncoder()
官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])
#输出： array([0,0,3,2,1])

array([0, 0, 3, 2, 1], dtype=int64)

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 3, 3, 7])
LabelEncoder()
le.transform([1, 1, 3, 7]) 
#array([0, 0, 1, 2]...)
le.classes_   #查看分类
#array([1, 2, 6])
le.inverse_transform([0, 0, 1, 2])  #transform的逆向
#array([1, 1, 2, 6])

array([1, 1, 3, 7])

三.sklearn的崽二：OneHotEncoder 对表示分类的数字进行编码，输出跟dummies一样

sklearn.preprocessing.OneHotEncoder(n_values=None, categorical_features=None, categories=None, sparse=True, dtype=<class ‘numpy.float64’>, handle_unknown=’error’)
官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
注意：
输入的应该是表示类别的数字，如果输入文本，会报错的。

from sklearn.preprocessing import OneHotEncoder
OHE = OneHotEncoder()
OHE.fit(data)

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

<ipython-input-7-ba3b2772e40d> in <module>()
      1 from sklearn.preprocessing import OneHotEncoder
      2 OHE = OneHotEncoder()
----> 3 OHE.fit(data)


F:Anacondalibsite-packagessklearnpreprocessingdata.py in fit(self, X, y)
   1954         self
   1955         """
-> 1956         self.fit_transform(X)
   1957         return self
   1958 


F:Anacondalibsite-packagessklearnpreprocessingdata.py in fit_transform(self, X, y)
   2017         """
   2018         return _transform_selected(X, self._fit_transform,
-> 2019                                    self.categorical_features, copy=True)
   2020 
   2021     def _transform(self, X):


F:Anacondalibsite-packagessklearnpreprocessingdata.py in _transform_selected(X, transform, selected, copy)
   1807     X : array or sparse matrix, shape=(n_samples, n_features_new)
   1808     """
-> 1809     X = check_array(X, accept_sparse='csc', copy=copy, dtype=FLOAT_DTYPES)
   1810 
   1811     if isinstance(selected, six.string_types) and selected == "all":


F:Anacondalibsite-packagessklearnutilsvalidation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
    400                                       force_all_finite)
    401     else:
--> 402         array = np.array(array, dtype=dtype, order=order, copy=copy)
    403 
    404         if ensure_2d:


ValueError: could not convert string to float: '男'

看到，OneHotEncoder处理不了字符串。要先用

data3 = le.fit_transform(data["性别"])
OHE.fit(data3.reshape(-1,1))
OHE.transform(data3.reshape(-1,1)).toarray()

array([[ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.]])

对因变量y不能用OneHotEncoder，要用LabelBinarizer。

相关阅读:
lua for循环
多面体的欧拉公式
流形（Manifold）初步
Laplace算子和Laplacian矩阵
多重网格方法(Multigridmethod)
多重网格方法
谷歌浏览器兼容IE插件
伽辽金法
共轭梯度法
有限元分析

原文地址：https://www.cnblogs.com/wyy1480/p/10295084.html