1 # To add a new cell, type '# %%' 2 # To add a new markdown cell, type '# %% [markdown]' 3 # %% 4 import numpy as np 5 import pandas as pd 6 # 使用 Series 生产序列,Pandas默认生成整数索引 7 s = pd.Series([1,3,4, np.nan, 6,8]) 8 s 9 10 11 # %% 12 # 使用含日期时间索引和标签的Numpy数组生成DateFrame 13 dates = pd.date_range('20200703', periods = 6) 14 dates 15 df = pd.DataFrame(np.random.randn(6,5),index = dates, columns = list('ABCDE')) 16 df 17 18 19 # %% 20 import pandas as pd 21 import numpy as np 22 # 使用Series字典对象生成DataFrame 23 df2 = pd.DataFrame({"A": 1., 24 "N": pd.Timestamp('20200703'), 25 "B": pd.Series(1, index = list(range(4)),dtype='float32'), 26 "D": np.array([3]*4,dtype = 'int32'), 27 "E": pd.Categorical(["test","train","test","train"]), 28 "F": 'foo'}) 29 df2 30 31 32 # %% 33 #查询数据类型 34 df2.dtypes 35 36 37 # %% 38 # 获取单列数据 39 df2.A 40 41 42 # %% 43 df2.append 44 45 46 # %% 47 df.head() #Series 或着 DataFrame 前5位 48 49 50 # %% 51 df.tail(3) #Series或DataFrame 的尾部数据 可选数量 52 53 54 # %% 55 ts = pd.Series(np.random.randn(1000), 56 index = pd.date_range('1/1/2000',periods=1000)) 57 ts = ts.cumsum() 58 ts.plot() 59 60 61 # %% 62 df.index 63 64 65 # %% 66 df.columns 67 68 69 # %% 70 df.to_numpy() 71 72 73 # %% 74 df2.to_numpy() 75 76 77 # %% 78 df.describe() 79 80 81 # %% 82 df.T 83 84 85 # %% 86 df.sort_index(axis=1,ascending=False) 87 88 89 # %% 90 df.sort_values(by='B') 91 92 93 # %%
在test.ipynb文件中执行各种命令可以初略的看到pandas的一些功能,但总体来数和其他的统计软件类似。