1.
df6 = pd.DataFrame(data,index=行名,columns=列名)# 构成一个表格
print(df6.index) # 查看行名
print(df6.columns) # 查看列名
print(df6.values) # 查看数据值
print(df6['B'].values) # 查看列名为B的那一列的值
print(df6.iloc[0]) # 查看第0行的值
print(df6.shape[0]) 查看行数
print(df6.shape[1]) 查看列数
print(df6['a':'b']) # a行到b行,左闭右闭
print(df6.loc[:,'A':'B']) # 所有行,A列到B列
print(df6.describe())# 对数据根据列进行描述性统计(mean,std,min。。。)
print(df6.sum()) # 对每一列列求和
print(df6.sum(1)) # 对每一行求和
使用这个方法可以指定把列插入到第几列,其他的列顺延:
df6.insert(0, 'QQ', ['999','999','999','999','999','999'])
print(df6)
_dtypes = df6.infer_objects().dtypes # 查看所有列的数据类型
2.对表格根据某一列分组,并求分组后的最小值,最大值,均值,方差
1 def compute_min_max_means_std_column():
2 #计算每一类的min,max,means,std
3 df = pd.read_excel('../train_data/aba.xlsx', index_col=None, header=None)
4 # print(df.min())每一列的最小值
5 # print(df.max())
6 # print(df)
7 # sex = df[0] 第一列
8 # print(df[0].groupby(by=abalone[8]).count()) 根据标签对第一列进行分组查看每一类的个数
9 """
10 使用pd根据标签分组,计算每一类每一列的最小最大值,均值,标准差
11 根据第9列(第9列是标签)进行分组
12 """
13 for name,group in df.groupby(df[8]):
14 print('类号:',name)
15 # print(group)
16 group = group.iloc[:,1:8]#取每一行的第2列到第8列
17 print(group.min())
18 #for m in group.min():
19 # print(m) #循环打印每一列的最小值
20 print(group.max())
21 print(group.mean())
22 print(group.std())
2.取某列的不同取值并计算该值在某列中存在几次:
df['column'].unique()
df['column'].value_counts()
例如:
某一列有四种取值:[1 2 4 3]
每一种取值出现的次数:
4 394
1 274
2 269
3 63
iloc的用法
# 切片
# 下面两种方法有同样的效果; 表示取出df中1:5行(不包括5)和3:6列
1 df.iloc[1:5,3:6] 2 df.iloc[[1,2,3,4],[3,4,5]]
# 另外 df.iloc[0]、df.iloc[1]、df.iloc[-1] 分别表示第一行、第二行、最后一行
# 同理df.iloc[:,0]、df.iloc[:,1]、df.iloc[:,-1] 分别表示第一列、第二列、最后一列
iloc和loc区别:
https://blog.csdn.net/qq_33217634/article/details/88423660