(二)熟悉pandas的两个工具数据结构:Series和DataFrame
DataFrame
DateFrame
表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值,字符串,布尔值等)。它既有行索引也有列索引。
创建一个DateFrame
对象
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
'year': [2000,2001,2002,2001,2002,2003],
'pop': [1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)
frame
frame
state year pop
0 Ohio 2000 1.5
1 Ohio 2001 1.7
2 Ohio 2002 3.6
3 Nevada 2001 2.4
4 Nevada 2002 2.9
5 Nevada 2003 3.2
- 如果你指定了列的顺序,
DataFrame
的列会按照指定顺序排列 - 如果你传的列不包含在字典中,将会在结果中出现缺省值
DataFrame
的使用
-
可以按字典型标记或属性那样检索为
Series
对象frame.year 0 2000 1 2001 2 2002 3 2001 4 2002 5 2003 Name: year, dtype: int64 frame['year'] 0 2000 1 2001 2 2002 3 2001 4 2002 5 2003 Name: year, dtype: int64
-
行也可以通过位置或特殊属性
loc
进行选取frame2 = pd.DataFrame(data,index = ['one','two','three','four','five','six']) frame2 state year pop one Ohio 2000 1.5 two Ohio 2001 1.7 three Ohio 2002 3.6 four Nevada 2001 2.4 five Nevada 2002 2.9 six Nevada 2003 3.2 frame2.loc['one'] state Ohio year 2000 pop 1.5 Name: one, dtype: object
-
del
可以删除列