1.pd.set_option()
# 显示所有列 pd.set_option('display.max_columns', None) pd.set_option('display.max_columns', 5) #最多显示5列 # 显示所有行 pd.set_option('display.max_rows', None) pd.set_option('display.max_rows', 10)#最多显示10行 #显示小数位数 pd.set_option('display.float_format',lambda x: '%.2f'%x) #两位 #显示宽度 pd.set_option('display.width', 100) # import warnings warnings.filterwarnings('ignore') # 关闭运行时的警告 np.set_printoptions(linewidth=100, suppress=True) # 打印numpy时设置显示宽度,并且不用科学计数法显示 pd.set_option('display.width', 100) # pandas设置显示宽度 pd.set_option('precision', 1) # 设置显示数值的精度
2.head()函数
Returns the first or last parts of a vector, matrix, table, data frame or function.
Since head() and tail() are generic functions, they may also have been extended to other classes.
返回向量、矩阵、表、数据框或函数的前(或者最后)一部分。head()和tail()相似,他们也可能被扩展到其他类
3.get_dummies()函数
get_dummies 是利用pandas实现one hot encode的方式。
one hot encode 的思想是:
将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)[source]
例如:
import pandas as pd df = pd.DataFrame([ ['green' , 'A'], ['red' , 'B'], ['blue' , 'A']]) df.columns = ['color', 'class'] pd.get_dummies(df)
get_dummies 前:
get_dummies 后:
上述执行完以后再打印df 出来的还是get_dummies 前的图,因为你没有写
df = pd.get_dummies(df)
可以对指定列进行get_dummies
pd.get_dummies(df.color)
将指定列进行get_dummies 后合并到元数据中
df = df.join(pd.get_dummies(df.color))