• Python数据分析与展示[第三周](pandas数据特征分析单元8)


    数据理解#####
    • 基本统计
    • 分布/累计统计
    • 数据特征
    • 数据挖掘
    数据排序#####

    操作索引的排序
    .sort_index() 在指定轴上排序,默认升序

    参数

    • axis=0 column
    • ascending=True 升序

    .sort_values()

    参数同上
    +by 对应的(axis)轴上某一个索引或者索引列表 (会相应的改变行)

    NAN空 统一放到排序末尾

    基本统计函数####

    方法 说明
    .sum() 和,默认0轴下同
    .count() 计算非NAN的数量
    .mean() .median() 计算均值,中位数
    .var().std() 方差标准差
    .min().max() 最小值最大值
    .describe() 万能汇总,输出Series类型

    对于二维的Dataframe 也可以调用describe
    计算每一列统计值的信息
    b.describe().ix['max'] 发挥一横行的数据 返回Series 获得所有列的max
    b.describe()[2] 获得第2行的describe

    累积运算###

    累计统计分析函数
    .cumsum() 依次给出前1,2.。。。n个数的和
    .cumprod() 积
    .cummin() 最小值
    .cummax() 最大值

    如果是DataFrame 的话就是沿着列方向计算的

    适用于Series DataFrame 滚动计算函数
    滚动窗口函数

    方法 说明
    .rolling(w).sum() 依次计算相邻w各元素的和
    .rolling(w).mead() 均值
    .rolling(w).var() std min max 标准差方差最小(大)值

    b.rolling(2).sum()
    在当前的位置,与前一个元素相加(没有就补nan)

    数据的相关分析###

    XY,如何判断相关性 协方差方法
    协方差
    (cov(X,Y)=frac{sum_{i=1}^n(X_i-ar{X})(Y_i-ar{Y})}{n-1})

    Pearson相关系数
    (r=frac{sum_{i=1}n(x_i-ar{x})(y_i-ar{y})}{sqrt{sum_{i=1}n(x_i-ar{x})2}sqrt{sum_{i=1}n(y_i-ar{y})^2}} )

    适用于 Series DataFrame
    .cov() 计算协方差矩阵
    .corr() 计算相关系数矩阵,Pearson Spearman Kendall系数等

    a.corr(b)计算相关性

  • 相关阅读:
    HashMap
    java反射
    arraylist和linkedlist区别
    int和Integer的区别
    java 数组排序并去重
    矩阵链乘法问题
    找零问题
    硬币收集问题
    最大借书量问题
    钢条切割问题
  • 原文地址:https://www.cnblogs.com/sfzyk/p/6877952.html
Copyright © 2020-2023  润新知