• [读书笔记] Python数据分析 (五) pandas入门


    pandas: 基于Numpy构建的数据分析库

    pandas数据结构:Series, DataFrame

    Series: 带有数据标签的类一维数组对象(也可看成字典)

    values, index

    缺失数据检测:pd.isnull(), pd.notnull(), Series对象的实例方法

    Series对象本身及其索引都有一个name属性,和pandas其他关键功能关系很密切

    DataFrame: 表格型数据结构,列和行都有索引

    获取DataFrame列:字典标记方式,或者属性方式(frame2['state']/frame2.state)

    获取DataFrame行:ix()方法

    通过索引方式返回的列只是相应的数据视图,而不是副本,Series的Copy方法可以显示地复制列

    DataFrame的index和column也有name属性,可以自己设置

    索引对象:pandas索引对象负责管理轴标签和其他元数据,构建Series或者DataFrame时,所用到的任何数组或者其他序列的标签会被转换成一个Index. Index对象是不可以修改(immutable)的.

    Index属性

    基本功能

    重新索引:创建一个适合新索引的对象reindex()

    指定丢弃对象:drop()

    索引选取和过滤:ix()

    算术运算和数据对齐

    pandas可以对不同索引对象进行算术运算,对不重叠值自动填充NA

    在算术方法中填充值:fill_value

    DataFrame和Series之间的运算:broadcast()

    默认情况下DataFrame和Series之间的算术运算会将Series的索引匹配到DataFrame列,然后沿着行向下传播;如果想匹配行且在列上广播,必须使用算术运算方法

    函数应用和映射

    numpy的ufuncs(元素级数组方法),也可以用于操作pandas对象

    DataFrame的apply()方法,可以将函数应用到行或者列形成的一维数组

    排序和排名

    排序:

    sort_index() 对行或者列的索引排序(按照字典顺序)

    sort_index(by = ) 按照一个或者多个列中值进行排序

    Series按值进行排序, order方法

    排名:

    rank()

    带有重复值的轴索引

    索引的is_unique()属性可以告诉你它的值是否是唯一的

    汇总和计算描述性统计

    sum()

    mean()

    describe()

    描述和汇总统计函数

     相关系数和协方差

    对参数对进行计算得到,Series和DataFrame方法

    唯一值,值计数,以及成员资格

    唯一值:unique()方法

    值计数:value_counts()方法计算一个Series中各个值出现的频率

    成员资格:isin, 用于判断矢量化集合的成员资格,可以选取Series或DataFrame列中数据的子集

    处理缺失数据

    过滤缺失数据:dropna

    对于DataFrame对象,dropna默认丢弃任何含有缺失值的行; dropna(how = 'all') 丢弃全为NA那些行. 

    如果是针对列,传入axis = 1便可

    填充缺失数据:fillna

    传入常数值:所有na被替换为常数值

    传入字典:不同的列填充不同的值

    默认返回新的对象,但是也可以就地修改 inplace = TRUE

    层次化索引:数据重塑和基于分组的操作(透视表)

    stack和unstack

    对DataFrame来说,每条轴都可以有分层索引.

    根据级别进行汇总:DataFrame和Series的描述和汇总统计都用一个level选项. 

    使用列作为行索引,将行索引变为DataFrame的列:set_index() 相反reset_index()

  • 相关阅读:
    C语言strdup函数使用
    C语言之strcat使用
    撰写摘要|关键词
    方差分析|固定模型|随机模型|混合模型|SST|SST|SSE|LSD|SSR|单因素方差分析|双因素方差分析|无实验重复|有实验重复
    独立两样本|边际误差|实验容量
    成组vs成对|H1是受保护的|U检验
    SPSS|Data|Transfer|Analysis|Label|One sample test|Testval|Criables|
    DIP|PCN|CoevDB|PID|Y2H|RosettaDock Serve|元基因组学|微生物多样性
    PEAKS|NovoHMM|Nover|DeepNovo|MAYUPercolator|UniprotKB|Swiss-prot|Mascot|SEQUEST|X!Tandem|pFind|MaxQuant|Msconvert|PEPMASS|LC|
    h指数|JCR|ORCID|CCC|Research ID|BKCI|
  • 原文地址:https://www.cnblogs.com/vincentcheng/p/7989801.html
Copyright © 2020-2023  润新知