pandas主要就下面两方面:(只要稍微了解下面两点,那你就会用了)
1、两种数据结构(Series和DataFrame)
2、对这两种数据进行处理(主要是对DataFrame处理)
--------------------------------------------------------------------------------------------------------
正文:
1、两种数据结构(Series和DataFrame)
Series:有属性:index,values
DataFrame:有属性:index,columns,valuess
简单来说:series组成dataframe
series是这样:
dataframe是这样:
2、对这两种数据进行处理(主要是对DataFrame处理)
例如:读取csv到DataFrame
import pandas as pd df = pd.read_csv('1.csv')
清洗数据
#1、用数字0填充空值: df.fillna(value=0) #2、使用列prince的均值对NA进行填充: df[‘prince’].fillna(df[‘prince’].mean()) #3、清楚city字段的字符空格: df[‘city’]=df[‘city’].map(str.strip) #4、大小写转换: df[‘city’]=df[‘city’].str.lower() #5、更改数据格式: df[‘price’].astype(‘int’) #6、更改列名称: df.rename(columns={‘category’: ‘category-size’}) #7、删除后出现的重复值: df[‘city’].drop_duplicates() #8 、删除先出现的重复值: df[‘city’].drop_duplicates(keep=‘last’) #9、数据替换: df[‘city’].replace(‘sh’, ‘shanghai’)
如需更深入的了解各种方法可自行网上查阅