• Pandas的基本用法


    DataFrame的属性和用法:

      创建:

      pd.DataFrame(ndarray)

      也可以使用字典的方式来创建DataFrame

      添加行列索引:

      pd.DataFrame(ndarray,index,columns)

      index输入为列表作为行索引的值

      属性:

      shape,index,columns,values,T

      方法:

      返回前N行(默认为5)

      head(N)

      返回后N行(默认为5)

      tail(N)

    DataFrame索引的设置:

      1)修改行列索引值:

      行列索引值不能单独修改,只能进行整行或者整列的修改。

      2)重设索引:

      reset_index(drop=False)

      设置新的下标索引

      drop:默认为False,不删除原来的所以,如果为True,删除原来的索引

      3)设置新索引:

      set_index(keys,drop=True)  

      keys:可以为值也可以为列表,为列表时会产生Multindex

      查看索引的方法:DataFrame.index

      可以查看索引的名字和值:DataFrame.index.names

                  DataFrame.index.levels

    Panel:DataFrame的容器(弃用)

      items          -axis 0,每个项目对应于内部包含的数据帧(DataFrame)

      major_axis -axis 1,它是每个数据帧(DataFrame)的索引(行)

      minor_axis -axis 2,它是每个数据帧(DataFrame)的列

    Series:带索引的一维数组

      属性:

      index,values

      创建:

      pd.Series(ndarray) 

      指定内容,默认索引

      pd.Series(ndarray,index)

      指定内容,指定索引

      pd.Series({"red":100,"blue":200,"green":500,"yellow":1000})

      通过字典数据创建

    基本数据操作:

      ndarray.drop(list,axis)

      list:为指定需要删除的索引值

      axis:0为行,1位列

      索引操作:

      ①直接索引

      先列后行,先写列索引后写行索引

      ②按名字索引

      ndarray.loc["2018-02-06"]["open"]

      ndarray.loc["2018-02-06","open"]

      ③按数字索引

      ndarray.iloc[1,0]

      ④组合索引

       ndarray.ix[0:4,["open","close","high",""low]]

      返回值对应的索引:

      ndarray.columns.get_indexer(["open","close","high","low"])

      赋值操作:

      通过上面的索引操作直接对索引的位置进行赋值。

      排序操作:

      ①按照内容进行排序:

      DataFrame:

      df.sort_values(key,ascending=True)

      key:单个键或者多个键进行排序

      ascending=False:降序

      ascending=True:升序

      Series:

      sr.sort_values(ascending=False)

      ②按照索引进行排序:

      DataFrame:

      df.sort_index()

      按照索引进行从小到大的排序

      Series:

      sr.sort_index()

      按照索引进行从小到大的排序

    DataFrame运算:

      1)算数运算:

      ①直接使用符号作用于每一行

      ②使用ndarray.add()和ndarray.sub()方法进行加减操作

          可以直接对两行进行操作

      2)逻辑运算:

      ①可以使用逻辑运算符直接作用于每一行

      ②逻辑运算函数:

      query(expr)

      expr:查询字符串

      isin(values)  

      values:判断值是否存在

      3)统计运算:

      DataFrame.describe()

      返回几种常用的属性

      sum,mean,median,min,max,mode,abs,prod,std,var,idxmax,idxmin

      可以直接使用DataFrame.的方式获取对应的属性

      4)累计统计运算:

      cumsum  计算前1,2,3,.....n个数的和

      cummax  计算前1,2,3,.....n个数的最大值

      cummin  计算前1,2,3,.....n个数的最小值

      cumprod  计算前1,2,3,.....n个数的积

      5)自定义运算:

      apply(func,axis=0)

      func:自定义函数,使用lambda匿名函数

      axis=0:默认为列,axis=1:行进行运算

    Pandas画图:

      DataFrame.plot(x=None,y=None,kind="line",stacked=False)

      x:特征值,y:标签值

      kind:绘图类型

      line,bar,barh,hist,pie,scatter

      stacked:是否将图像进行堆叠

    Pandas文件操作:

      1)scv文件操作:

      ①读取csv文件:

      pandas.read_csv(path,sep=",",delimiter=None)

      path:文件路径

      usecols:指定需要的字段,可以为单个也可以为列表

      names:可以传入列表,作为读取文件的字段

      ②存储csv文件:

      DataFrame.to_csv(path,sep=",",columns=None,header=True,index=True,index_label=None,mode="w",encoding=None)

      path:文件路径

      columns:保存的列的索引

      index:是否保存行索引

      header:是否保存列索引

      2)hdf5文件操作:

      ①读取hdf5文件:

      hdf5文件相当于3维文件,每一个key对应的是一个DataFrame

      pandas.read_hdf(path,key=None,**kwargs)

      path:文件路径

      key:读取的键

      mode:打开文件的模式

      ②存储hdf5文件:

      DataFrame.to_hdf(path,key,**kwargs)

      path:文件路径

      key:对应的key值

      key值不同,可以多次存储hdf5文件

      3)JSON文件操作:

      ①读取JSON文件:

      pandas.read_json(path,orient,type="frame",lines=False)

      path:文件路径

      orient:一般使用“records”,符合一般的格式

      lines:是否把一行作为一个样本

      ②存储JSON文件:

      DataFrame.to_json(path,orient,lines)

      path:文件路径

      orient:一般使用“records”,符合一般的格式

      lines:是否把一行作为一个样本

    缺失值的处理:

      1)如何处理nan

      判断是否存在缺失值:

      pd.isnull(DataFrame)

      pd.notnull(DataFrame)

      ①删除存在缺失值的样本:

      dropna(axis="rows",inpalce=False)

      axis:默认按行修改数据

      inplace:是否替换数据,为True时,在原始数据上进行修改,为False时,返回另外的数据值,不改变原数据

      ②替换缺失值:

      fillna(value,inplace=True)

      value:替换成的值

      inplace:是否替换数据,为True时,在原始数据上进行修改,为False时,返回另外的数据值,不改变原数据

      缺失值不为nan时,需要先将缺失值转换为nan,再进行处理。

      DataFrame.replace(to_replace=,value=)

      to_replace:替换之前的值

      value:替换之后的值

    数据离散化:

      1)对数据进行分组:

      ①自动分组:pd.qcut(data,bins)

      data:分组的数据

      bins:要分的组数

           返回series值

      ②自定义分组:pd.cut(data,bins)

      data:分组的数据

      bins:要分的组按照列表的方式进行输入

      返回series值

      2)将分好的组的结果转换为哑变量(one-hot编码)

      pd.get_dummies(series,prefix)

      series:输入分组好的series值,prefix为分组的名字

    合并处理:

      1)按方向进行拼接

      pd.concat([data1,data2],axis=1)

      按照行或者列进行合并,axis=0为行索引,axis=1为行索引

      2)按索引进行拼接

      pd.merge(left,right,how="inner",on=[索引])

      inner:相同的保留

      left:左边的保留

      right:右边的保留

      outer:全部都保留

    交叉表和透视表:

      1)交叉表(用于寻找两列之间的关系):

      pd.crosstab(value1,value2)

      传入值为两列,返回两列的对应关系

      pandas日期类型(转换为DatetimeIndex):

      pd.to_datetime

      DatetimeIndex数据的属性:

      year,month,weekday

      2)透视表:

      DataFrame.pivot_table([],index=[])

      前面输入需要查看的数据列,后面提供索引

    分组与聚合:

      DataFrame.groupby(by,as_index=False)

      by:分组的列数据,可以为多个

      Series.groupby(DataFrame[])

      传入对应的列,按照该列进行分组与聚合

      

      

      

      

      

  • 相关阅读:
    R获取指定GO term和KEGG pathway的gene list基因集
    统计和数学中常见的定理汇总 | 大数定律 | 中心极限定理
    Genome Aggregation Database (gnomAD) 简介 | 参考人群等位基因频率数据库
    SC3聚类 | 拉普拉斯矩阵 | Laplacian matrix | 图论 | R代码
    Bayesian Statistics for Genetics | 贝叶斯与遗传学
    似然函数 | 最大似然估计 | likelihood | maximum likelihood estimation | R代码
    如何选题?| 什么样的科学问题 | 研究项目才是有意义的?| scientific method
    响应面分析 | response surface analysis | R代码
    乌龙茶生产过程中挥发性成分吲哚的形成 | Formation of Volatile Tea Constituent Indole During the Oolong Tea Manufacturing Process
    PPI | protein-protein interaction | 蛋白互作分析 | gene interaction | 基因互作
  • 原文地址:https://www.cnblogs.com/zx931880423/p/11794838.html
Copyright © 2020-2023  润新知