• 利用Python进行数据分析_Pandas_汇总和计算描述统计


    申明:本系列文章是自己在学习《利用Python进行数据分析》这本书的过程中,为了方便后期自己巩固知识而整理。

    In [1]: import numpy as np
    
    In [2]: import pandas as pd
    
    In [3]: from pandas import DataFrame,Series
    
    In [4]: data = {'class':['语文','数学','英语'],'score':[120,130,140]}
    
    In [5]: frame = DataFrame(data)
    
    In [6]: frame
    Out[6]:
      class  score
    0    语文    120
    1    数学    130
    2    英语    140

    我们来汇总一下成绩:

    首先,我们通过字典标记的方式,可以将DataFrame的列转成一个Series:
    In [18]: frame.score
    Out[18]:
    0    120
    1    130
    2    140
    Name: score, dtype: int64

    然后,我们再进行汇总统计:

    In [20]: frame.sum()
    Out[20]:
    class    语文数学英语
    score       390
    dtype: object

    当然,还有别的统计法则:

    idxmin 最小值的索引值

    idxmax 最大值的索引值

    describe 一次性 多种维度统计

    count 非NA值的数量

    min 最小值

    max 最大值

    argmin 最小值的索引位置

    argmax 最大值的索引位置

    sum 总和

    mean 平均数

    median 算术中位数

    mad 根据平均值计算平均绝对离差

    var 样本值的方差

    std 样本值的标准差

    skew 样本值的偏度(三阶矩阵)

    kurt 样本值的峰度(四阶矩阵)

    cumsum 样本值的累积和

    cummin、cummax 样本值的最大值、最小值

    cumprod 样本值的累计积

    diff 计算一阶差分

    pct_change 计算百分数变化

     

     

     

  • 相关阅读:
    Codeforces Round #398 (Div. 2) B,C
    KMP模板
    HDU1711 KMP(模板题)
    HDU3265 线段树(扫描线)
    HDU2795 线段树
    HDU1828线段树(扫描线)
    HDU1832 二维线段树求最值(模板)
    HDU1698 线段树(区间更新区间查询)
    HDU3251 最大流(最小割)
    cf2.c
  • 原文地址:https://www.cnblogs.com/zhouwp/p/8485462.html
Copyright © 2020-2023  润新知