"人生苦短,我用python。"
数据处理这块,最近在学习使用python的pandas库,这里就写点笔记,方便回顾和复习吧。
一、理解
1、pandas读入csv或者其他文件后的对象称之为Dataframe,每列又分别是一个Series,这一点非常重要。
2、pandas的函数大都返回一个查询结果集,通过中括号选定然后赋值才能真正获得这个结果集。
二、编码(详细开发文档见http://pandas.pydata.org/pandas-docs/stable/index.html)
1.first
import pandas as pd
2.读入和写出
data = pd.read_csv('data.csv') data.to_csv('output.csv')
3.增删改查
#增加 待添加 #删除 data = data.dropna() #删除空值,注意dropna返回的是个查找集,需赋值得到结果集 data=data[['年级','性别','年龄','身高','体重']] #取某些列 #修改 data.身高 = data.身高 +10 #pandas可对整列直接处理 #查找 data=data[(data.年级>1) & (data.性别==1)] #中括号内是查找,查找完后记得赋值才能得到结果集
4.其他
#排序 data = data.sort_values(by="身高") #替换 data.身高 = data.身高.replace(0 , numpy.NaN) #将0值替换成空值,注意0值和空值的区别