一、pd.cut()与pd.qcut()的区别
假设有一组人员数据,而你希望将它们划分为不同的年龄组
ages = [18,20,22,25,27,21,23,37,31,61,45,32] bins = [18,25,35,60,100] cats = pd.cut(ages, bins)#将ages中的每个元素划分到bins组内 cats ''' [NaN, (18, 25], (18, 25], (18, 25], (25, 35], ..., (35, 60], (25, 35], (60, 100], (35, 60], (25, 35]] Length: 12 Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]] 四个分组采取左开右闭方式,不存在于某区间内,则为NaN ''' #添加分组标签 group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior'] cats = pd.cut(ages, bins, labels=group_names) ''' [NaN, Youth, Youth, Youth, YoungAdult, ..., MiddleAged, YoungAdult, Senior, MiddleAged, YoungAdult] Length: 12 Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior] ''' ''' qcut是类似cut的函数,但是qcut是使用的样本分位数,所以得到大小基本相等的面元。即每个面元,每个分组的数据数量基本相同。 pd.qcut(data,4) 即将数据data均匀撒在四个分组中 ''' data = [x for x in range(20)] pd.qcut(data, 4,labels=[0,1,2,3]) ''' [0, 0, 0, 0, 0, ..., 3, 3, 3, 3, 3] Length: 20 Categories (4, int64): [0 < 1 < 2 < 3] '''
二、当数据列中存在NA值时,想对这些NA值进行填充
import pandas as pd import numpy as np train_file = "train.csv" test_file = "test.csv" test_result_file = "gender_submission.csv" train = pd.read_csv(train_file) test = pd.read_csv(test_file) test_y = pd.read_csv(test_result_file)#test也有标签,用于核对模型对test数据预测的结果好坏 full_data = [train,test] print(train.info()) #比如有一数据列Age,存在NA值,使用的填充值的范围[(mean - std) ,(mean + std)] for dataset in full_data: age_avg = dataset['Age'].mean() age_std = dataset['Age'].std() age_null_count = dataset['Age'].isnull().sum() age_default_list = np.random.randint(low=age_avg-age_std,high=age_avg+age_std,size=age_null_count,) dataset['Age'][np.isnan(dataset['Age'])] = age_default_list dataset['Age'] = dataset['Age'].astype(int)
三、如何更改pandas DataFram的列名
有两种方法:df.columns和df.renames
import pandas as pd df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) print(df) ''' a b 0 1 4 1 2 5 2 3 6 ''' #一、修改列名a,b为A、B df.columns = ['A','B'] print(df) ''' A B 0 1 4 1 2 5 2 3 6 ''' #二、只修改列名A为a df.rename(columns={'A':'a'}) ''' a B 0 1 4 1 2 5 2 3 6 '''
四、pandas中pd.loc和pd.iloc及pd.ix的区别
import pandas as pd data = [[1,2,3],[4,5,6]] index = ['A','B'] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns) ''' a b c A 1 2 3 B 4 5 6 ''' #loc——通过行标签索引行数据 df.loc['A'] ''' a 1 b 2 c 3 Name: A, dtype: int64 ''' df.loc['B'] ''' a 4 b 5 c 6 Name: B, dtype: int64 ''' #iloc——通过行号获取行数据 df.iloc[0] ''' a 1 b 2 c 3 Name: A, dtype: int64 ''' df.iloc[1] ''' a 4 b 5 c 6 Name: B, dtype: int64 ''' #ix——结合前两种的混合索引 df.ix['A'] ''' a 1 b 2 c 3 Name: A, dtype: int64 ''' df.ix[0] ''' a 1 b 2 c 3 Name: A, dtype: int64 '''
五、pandas如何去掉数据集某列或者某行
pd.drop(),要注意如果想直接作用到原对象上,可传入参数inplace=True,即:pd.drop(inplace=True)
df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A','B','C','D']) df ''' A B C D 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 ''' df.drop(['B','C'],axis=1) ''' A D 0 0 3 1 4 7 2 8 11 ''' #去掉某行 df.drop([0,1]) ''' A B C D 2 8 9 10 11 ''' #传入参数inplace=True,直接作用于原对象 df.drop([1,2],inplace=True) df ''' A B C D 0 0 1 2 3 '''
六、pd.Series()使用
Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(即索引)组成
Se = pd.Series([4, 7, -5, 3]) Se ''' 0 4 1 7 2 -5 3 3 dtype: int64 ''' Se = pd.Series([4,7, -5, 3], index=['d', 'b', 'a', 'c']) Se ''' d 4 b 7 a -5 c 3 dtype: int64 ''' #取值 Se['a'] ''' -5 ''' Se['b'] ''' 7 ''' #元素为int时计算 Se * 2 ''' d 8 b 14 a -10 c 6 dtype: int64 '''
七、pd合并数据集
pd.concat()用法
s1 = pd.DataFrame([0,1], index=['a', 'b']) s2 = pd.DataFrame([2,3], index=['c', 'd']) s3 = pd.DataFrame([4,5], index=['e', 'f']) ''' s1 0 a 0 b 1 s2 0 c 2 d 3 s3 0 e 4 f 5 ''' #默认按照行合并 pd.concat( [s1,s2,s3] ) ''' 0 a 0 b 1 c 2 d 3 e 4 f 5 ''' #axis=1,按照列合并,如果索引不同,用NAN填充 pd.concat([s1,s2,s3],axis=1) ''' 0 0 0 a 0.0 NaN NaN b 1.0 NaN NaN c NaN 2.0 NaN d NaN 3.0 NaN e NaN NaN 4.0 f NaN NaN 5.0 ''' #axis=1,按照列合并,如果索引相同,s1和s2,s3索引都是a,b pd.concat([s1,s2,s3],axis=1) ''' 0 0 0 a 0 2 4 b 1 3 5 '''
八、利用pd进行数据筛选
#筛选出多列 train[ ['FamilySize','IsAlone'] ] #按照列的条件进行筛选 train['IsAlone'][train['FamilySize']==1] = 1#将FamilySize域为1的IsAlone域赋值为1
九、关于low_memory=False
import pandas as pd data = pd.read_csv('银行产品推荐数据.csv') ''' Warning (from warnings module): File "Bank.py", line 1 import pandas as pd DtypeWarning: Columns (11) have mixed types. Specify dtype option on import or set low_memory=False. ''' #有时出现上面的错误,改正方法 #方法一 data = pd.read_csv('银行产品推荐数据.csv', low_memory=False) #方法二,优于方法一 data = pd.read_csv( '银行产品推荐数据.csv', dtype={ "Is Employee's Spouse":str } )
pandas读取csv文件默认是按块读取的,即不一次性全部读取;
另外pandas对数据的类型是完全靠猜的,所以pandas每读取一块数据就对csv字段的数据类型进行猜一次,所以有可能pandas在读取不同块时对同一字段的数据类型猜测结果不一致
low_memory=False 参数设置后,pandas会一次性读取csv中的所有数据,然后对字段的数据类型进行唯一的一次猜测。这样就不会导致同一字段的Mixed types问题了。
但是这种方式真的非常不好,一旦csv文件过大,就会内存溢出;所以推荐用方法二
十、value_counts转换为字典:to_dict()
dataframe[field].astype(int).value_counts().to_dict()
十一、筛选满足条件的行
df[df['column name'].map(len) < 2] # df为整个数据框