• 对分类型变量,进行编码处理——pd.get_dummies()、LabelEncoder()、oneHotEncoder()


    背景:

    在拿到的数据里,经常有分类型变量的存在,如下:
    球鞋品牌:Nike、adidas、 Vans、PUMA、CONVERSE
    性别:男、女
    颜色:红、黄、蓝、绿
    However,sklearn大佬不能直接分析这类变量呀。在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是算法关键部分,而常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。于是,我们要对这些分类变量进行哑变量处理,又或者叫虚拟变量。
    缺点:
    当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度。
    In summary,
    要是one hot encoding的类别数目不太多,可优先考虑。

    一.pd.get_dummies()简单&粗暴

    pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
    官网文档:
    http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

    输入:array-like, Series, or DataFrame
    输出:DataFrame
    主要参数说明:
    data : array-like, Series, or DataFrame
    prefix : 给输出的列添加前缀,如prefix="A",输出的列会显示类似
    prefix_sep : 设置前缀跟分类的分隔符sepration,默认是下划线"_"
    一般,我们输入data就够了。如果要专门关注Nan这类东东,可设置dummy_na=True,专门生成一列数据。
    见下面的栗子:(简直不要太容易)

    import numpy as np
    import pandas as pd
    data = pd.DataFrame({"学号":[1001,1002,1003,1004],
                        "性别":["男","女","女","男"],
                        "学历":["本科","硕士","专科","本科"]})
    data
    
    学历 学号 性别
    0 本科 1001
    1 硕士 1002
    2 专科 1003
    3 本科 1004
    pd.get_dummies(data)
    
    学号 学历_专科 学历_本科 学历_硕士 性别_女 性别_男
    0 1001 0 1 0 0 1
    1 1002 0 0 1 1 0
    2 1003 1 0 0 1 0
    3 1004 0 1 0 0 1
    pd.get_dummies(data,prefix="A")
    
    学号 A_专科 A_本科 A_硕士 A_女 A_男
    0 1001 0 1 0 0 1
    1 1002 0 0 1 1 0
    2 1003 1 0 0 1 0
    3 1004 0 1 0 0 1
    pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")
    
    学号 A+专科 A+本科 A+硕士 B+女 B+男
    0 1001 0 1 0 0 1
    1 1002 0 0 1 1 0
    2 1003 1 0 0 1 0
    3 1004 0 1 0 0 1

    二.sklearn的崽一:LabelEncoder 将不连续的数字or文本进行编号

    sklearn.preprocessing.LabelEncoder()
    官方文档:
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    le.fit([1,5,67,100])
    le.transform([1,1,100,67,5])
    #输出: array([0,0,3,2,1])
    
    array([0, 0, 3, 2, 1], dtype=int64)
    
    from sklearn import preprocessing
    le = preprocessing.LabelEncoder()
    le.fit([1, 3, 3, 7])
    LabelEncoder()
    le.transform([1, 1, 3, 7]) 
    #array([0, 0, 1, 2]...)
    le.classes_   #查看分类
    #array([1, 2, 6])
    le.inverse_transform([0, 0, 1, 2])  #transform的逆向
    #array([1, 1, 2, 6])    
    
    array([1, 1, 3, 7])
    

    三.sklearn的崽二:OneHotEncoder 对表示分类的数字进行编码,输出跟dummies一样

    sklearn.preprocessing.OneHotEncoder(n_values=None, categorical_features=None, categories=None, sparse=True, dtype=<class ‘numpy.float64’>, handle_unknown=’error’)
    官方文档:
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
    注意:
    输入的应该是表示类别的数字,如果输入文本,会报错的

    from sklearn.preprocessing import OneHotEncoder
    OHE = OneHotEncoder()
    OHE.fit(data)
    
    ---------------------------------------------------------------------------
    
    ValueError                                Traceback (most recent call last)
    
    <ipython-input-7-ba3b2772e40d> in <module>()
          1 from sklearn.preprocessing import OneHotEncoder
          2 OHE = OneHotEncoder()
    ----> 3 OHE.fit(data)
    
    
    F:Anacondalibsite-packagessklearnpreprocessingdata.py in fit(self, X, y)
       1954         self
       1955         """
    -> 1956         self.fit_transform(X)
       1957         return self
       1958 
    
    
    F:Anacondalibsite-packagessklearnpreprocessingdata.py in fit_transform(self, X, y)
       2017         """
       2018         return _transform_selected(X, self._fit_transform,
    -> 2019                                    self.categorical_features, copy=True)
       2020 
       2021     def _transform(self, X):
    
    
    F:Anacondalibsite-packagessklearnpreprocessingdata.py in _transform_selected(X, transform, selected, copy)
       1807     X : array or sparse matrix, shape=(n_samples, n_features_new)
       1808     """
    -> 1809     X = check_array(X, accept_sparse='csc', copy=copy, dtype=FLOAT_DTYPES)
       1810 
       1811     if isinstance(selected, six.string_types) and selected == "all":
    
    
    F:Anacondalibsite-packagessklearnutilsvalidation.py in check_array(array, accept_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, warn_on_dtype, estimator)
        400                                       force_all_finite)
        401     else:
    --> 402         array = np.array(array, dtype=dtype, order=order, copy=copy)
        403 
        404         if ensure_2d:
    
    
    ValueError: could not convert string to float: '男'
    

    看到,OneHotEncoder处理不了字符串。要先用

    data3 = le.fit_transform(data["性别"])
    OHE.fit(data3.reshape(-1,1))
    OHE.transform(data3.reshape(-1,1)).toarray()
    
    array([[ 0.,  1.],
           [ 1.,  0.],
           [ 1.,  0.],
           [ 0.,  1.]])
    

    对因变量y不能用OneHotEncoder,要用LabelBinarizer。

  • 相关阅读:
    lua for循环
    多面体的欧拉公式
    流形(Manifold)初步
    Laplace算子和Laplacian矩阵
    多重网格方法(Multigridmethod)
    多重网格方法
    谷歌浏览器兼容IE插件
    伽辽金法
    共轭梯度法
    有限元分析
  • 原文地址:https://www.cnblogs.com/wyy1480/p/10295084.html
Copyright © 2020-2023  润新知