pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别

pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别
- sklearn.preprocessing 下除了提供 OneHotEncoder 还提供 LabelEncoder（简单地将 categorical labels 转换为不同的数字）；
1. 简单区别

Panda’s get_dummies vs. Sklearn’s OneHotEncoder() :: What is more efficient?
- sklearn.preprocessing 下的 OneHotEncoder 不可以直接处理 string，如果数据集中的某些特征是 string 类型的话，需要首先将其转换为 integers 类型；
  - 在新版本中 sklearn 中，OneHotEncoder 实例的 fit 方法将不再接收 1 维数组，而必须是显式的二维形式；
```
encoder = OneHotEncoder()
encoder.fit([[1, 2], [2, 1]])
```
- pd.get_dummies()，则恰将 string 转换为 integers 类型：
```
>> pd.get_dummies(['A', 'B', 'A'])
   A  B
0  1  0
1  0  1
2  1  0
```
2. sklearn.feature_extraction 下的 DictVectorizer

How can i vectorize list using sklearn DictVectorizer

将字典类型表示的属性，转换为向量类型：
```
>> measurements = [
     {'city=Dubai': True, 'city=London': True, 'temperature': 33.},
     {'city=London': True, 'city=San Fransisco': True, 'temperature': 12.},
     {'city': 'San Fransisco', 'temperature': 18.},
]

>> vec.feature_names
['city=Dubai', 'city=London', 'city=San Fransisco', 'temperature']


>> vec.fit_transform(measurements).toarray()
array([[  1.,   1.,   0.,  33.],
       [  0.,   1.,   1.,  12.],
       [  0.,   0.,   1.,  18.]])
```
相关阅读:
【RL-TCPnet网络教程】第33章 SMTP简单邮件传输协议基础知识
 【RL-TCPnet网络教程】第32章 RL-TCPnet之Telnet服务器
 【原创开源应用第5期】基于RL-USB+RL-FlashFS的外挂U盘解决方案
 【RL-TCPnet网络教程】第31章 Telnet远程登录基础知识
 【RL-TCPnet网络教程】第30章 RL-TCPnet之SNTP网络时间获取
 【RL-TCPnet网络教程】第29章 NTP网络时间协议基础知识
 【RL-TCPnet网络教程】第28章 RL-TCPnet之DNS应用
 【RL-TCPnet网络教程】第27章 DNS域名系统基础知识
 【RL-TCPnet网络教程】第26章 RL-TCPnet之DHCP应用
 emWin录音机，含uCOS-III和FreeRTOS两个版本
原文地址：https://www.cnblogs.com/mtcnn/p/9421387.html

pandas 下的 one hot encoder 及 pd.get_dummies() 与 sklearn.preprocessing 下的 OneHotEncoder 的区别

1. 简单区别

2. sklearn.feature_extraction 下的 DictVectorizer