一、读取文件
csv:是一种应用分割符分隔的文件,因为其分割符不一定是逗号---又称为字符分隔文件:
文件以纯文本形式存储表格数据。
1 import pandas as pd 2 #读取csv文件 3 order=pd.read_csv('meal_order_info.csv',sep=',',encoding='gbk') 4 print(order)
使用pd.read_excel('文件路径.excel')读取excel文件
二、DataFrame的常用属性
1 user=pd.read_excel('users.xlsx') 2 print(type(user)) 3 #存储excel文件 4 #user,是要存储的数据文件 5 # user.to_excel('文件名.xlsx') 6 7 #####DataFrame 的常用操作 8 #DataFrame 的常用属性 9 #values/columns/dtypes/ 10 print(user.values)##所有值 11 print(user.columns)##列名 12 print(user.dtypes)##数据类型 13 print(user.shape)##获取DataFrame的行列 14 print(user.size)##获取DataFrame的大小 15 print(user.ndim)##维数
时间序列:
1 import pandas as pd 2 #打开文件 3 data=pd.read_excel('meal_order_detail.xlsx') 4 #查看前5行 5 print(data.head()) 6 #查看后5行 7 print(data.tail()) 8 #查看维度(几行,几列) 9 print(data.shape) 10 #查看数据表的基本信息 11 print(data.info()) 12 #查看列名 13 print(data.columns) 14 #数据表清洗 15 #用0值填充空值 16 print(data.fillna(value=0)) 17 #删除行或列 18 data.drop(labels=['logicprn_name','parent_class_name'],axis=1,inplace=True) 19 #时间序列 20 place_order_time=pd.to_datetime(data['place_order_time']) 21 ymd=[i.date() for i in place_order_time] 22 time=[i.time() for i in place_order_time] 23 year=[i.year for i in place_order_time] 24 month=[i.month for i in place_order_time] 25 day=[i.day for i in place_order_time] 26 hour=[i.hour for i in place_order_time] 27 minute=[i.minute for i in place_order_time] 28 second=[i.second for i in place_order_time] 29 data['ymd']=ymd 30 data['time']=time 31 print(data['ymd'],data['time']) 32 print(year,month,day,hour,minute,second) 33 #时间的运算(加减) 34 jianfa=place_order_time-pd.to_datetime('2015-1-1') 35 print(jianfa) 36 jiafa=place_order_time-pd.Timedelta(days=10) 37 print(jiafa)