机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)

机器学习入门-数值特征-连续数据离散化(进行分段标记处理) 1.hist(Dataframe格式直接画直方图)
函数说明:

   1. .hist 对于Dataframe格式的数据，我们可以使用.hist直接画出直方图

对于一些像年龄和工资一样的连续数据，我们可以对其进行分段标记处理，使得这些连续的数据变成离散化

就好比：我们可以将0-9岁用0表示

   10-19用1表示

20-29用2表示

   ...

下面我们对一个年龄数据进行了分段标记处理

代码：

第一步：导入数据

第二步：对年龄特征使用.hist画出直方图，直方图本身也是一个分段的过程

第三步：使用np.floor(/10)取整，将比如5岁的年龄计算后为0

第四步：将特征放入原数据中，进行展示
```
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 第一步
fcc_survey_df = pd.read_csv('datasets/fcc_2016_coder_survey_subset.csv')

# 对年龄特征进行分段标记：比如0-9分为0, 10-19为1....
# 先对年龄字典画直方图，直方图本身也是一种分段过程
# 第二步
fig, ax = plt.subplots()
fcc_survey_df['Age'].hist(color='#A9C5D3')
ax.set_xlabel('Age')
ax.set_ylabel('Frequency')
ax.set_title('Age bins')
plt.show()
```
```
# 第三步我们使用/10取整对年龄字段进行分段处理
Age_bins = np.floor(fcc_survey_df['Age'].values / 10)
# 第四步：将列表放入原数据中进行展示
fcc_survey_df['Age_bins'] = Age_bins
print(fcc_survey_df[['Age', 'Age_bins']].head())
```
相关阅读:
用的springboot+mybatis plus，报错bean无法实例化
 coding使用
 drop表后仍占表空间解决办法
 oracle从零开始学习笔记三
 oracle从零开始学习笔记二
 录制简单的自动化测试工具SlikMobile初体验
 appium 等待页面元素加载
 sdk 更新的时连接不上dl-ssl.google.com解决办法
 oracle从零开始学习笔记
 oracle: tochar(sysdate,'D')函数
原文地址：https://www.cnblogs.com/my-love-is-python/p/10321371.html