数据理解#####
- 基本统计
- 分布/累计统计
- 数据特征
- 数据挖掘
数据排序#####
操作索引的排序
.sort_index() 在指定轴上排序,默认升序
参数
- axis=0 column
- ascending=True 升序
.sort_values()
参数同上
+by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)
NAN空 统一放到排序末尾
基本统计函数####
方法 | 说明 |
---|---|
.sum() | 和,默认0轴下同 |
.count() | 计算非NAN的数量 |
.mean() .median() | 计算均值,中位数 |
.var().std() | 方差标准差 |
.min().max() | 最小值最大值 |
.describe() | 万能汇总,输出Series类型 |
对于二维的Dataframe 也可以调用describe
计算每一列统计值的信息
b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max
b.describe()[2] 获得第2行的describe
累积运算###
累计统计分析函数
.cumsum() 依次给出前1,2.。。。n个数的和
.cumprod() 积
.cummin() 最小值
.cummax() 最大值
如果是DataFrame 的话就是沿着列方向计算的
适用于Series DataFrame 滚动计算函数
滚动窗口函数
方法 | 说明 |
---|---|
.rolling(w).sum() | 依次计算相邻w各元素的和 |
.rolling(w).mead() | 均值 |
.rolling(w).var() std min max | 标准差方差最小(大)值 |
b.rolling(2).sum()
在当前的位置,与前一个元素相加(没有就补nan)
数据的相关分析###
XY,如何判断相关性 协方差方法
协方差
(cov(X,Y)=frac{sum_{i=1}^n(X_i-ar{X})(Y_i-ar{Y})}{n-1})
Pearson相关系数
(r=frac{sum_{i=1}n(x_i-ar{x})(y_i-ar{y})}{sqrt{sum_{i=1}n(x_i-ar{x})2}sqrt{sum_{i=1}n(y_i-ar{y})^2}} )
适用于 Series DataFrame
.cov() 计算协方差矩阵
.corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等
a.corr(b)计算相关性