让我们开始数据分析
-
数据分析基础需要掌握哪些,毫无疑问,是我列出的这几个库的使用
-
pandas: 中文版, to: pandas, 译本: pandas-0.22
个人比较喜欢看中文版,这里就不列出英文版,需要可以搜官方文档
Pandas
pandas: 功能强大的Python数据分析工具包
- 软件包概述
- 10分钟入门pandas
- s = pd.Series([1,3,5,np.nan,6,8]) : Series对象
- dates = pd.date_range('20130101', periods=6) : 生成时间
- df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')):生成DataFrame 对象
- df.[方法,属性: dtypes, head(), index, columns, describe(), T, sort_index(axis=1, ascending=False), sort_values(by='B'), ]
- 切片方式, 标签选择: [df[0:3], df.loc[dates[0]], df.loc[:,['A','B']], df.loc[dates[0],'A'], df.at[dates[0],'A'], df.iloc[3:5,0:2], df.iat[1,1], df[df.A > 0], ]
- 过滤:[df2[df2['E'].isin(['two','four'])], ]
- 缺失数据[df1.dropna(how='any'), df1.fillna(value=5), pd.isna(df1)]
- 基础操作[mean(), shift(2)]
numpy
- The N-dimensional array (ndarray) : 多维数组
- Scalars : 标量
- Data type objects (dtype): 数据类型
- indexing: 索引切片
- Iterating Over Arrays: 数组迭代
- Standard array subclasses: 标准数组子类
- Masked arrays: 掩码数组
- The Array Interface: 数组接口
- Datetimes and Timedeltas: 日期和时间