• pandas模块


    pandas模块

    一、导入方式

    import pandas as pd
    

    二、作用

    文件处理,更多地是给excle文件做处理,对numpy+xlrd模块做了一层封装

    三、pandas的数据类型

    3.1 series()

    现在一般不使用(一维)

    df = pd.series(np.array([1,2,3,4]))
    print(df)
    

    3.2 DataFrame() (多维)

    3.2.1

    dates = pd.date_range('20190101', periods=6, freq='M')
    print(dates)    # periods=6, freq='M'代表前六个月
    
    start 开始时间
    end 结束时间
    periods 时间长度
    freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

    3.2.2 属性

    属性 详解
    dtype是 查看数据类型
    index 查看行序列或者索引
    columns 查看各列的标签
    values 查看数据框内的数据,也即不含表头索引的数据
    describe 查看数据每一列的极值,均值,中位数,只可用于数值型数据
    transpose 转置,也可用T来操作
    sort_index 排序,可按行或列index排序输出
    sort_values 按数据值来排序

    3.2.3 取值

    #构造一个数组
    dates = pd.date_range('20190101', periods=6, freq='M')
    print(dates)
    

    values = np.random.rand(6, 4) * 10
    print(values)

    columns = ['c4','c2','c3','c1']

    #主要掌握
    df.values[1,1]   #取出第一行第一列
    df.iloc[1,1] = 1  #取出第一行第一列,替换为1
    

    3.2.4 操作表格

    1、缺失值处理

    df = df.dropna(axis = 0)    #按行删除缺失值
    df
    
    df = df.dropna(tresh = 4)   #必须得有4个值,写5就不可以,因为只有4列
    
    df = df.dropna(axis=0)  # 1列,0行
    df  #按行取缺失值
    

    2、合并处理数据

    df1 = pd.DataFrame(np.zeros((2,3)))  #用0合并两行三列
    df2 = pd.DataFrame(np.ones((2,3)))  #用1合并两行三列
    pd.concat((df1,df2))  #默认按列合并
    pd.concat((df1,df2),axis=1)    axis=1是行,0是列
    df1.append(df2)   #往后追加
    
    • 导入数据,读取json文件菜鸟仅做了解
  • 相关阅读:
    如何进入docker 使用root用户的方式
    阿里云服务搭建nginx并配置
    阿里云容器部署Redis集群
    Redis运维利器 -- RedisManager
    远程连接-使用SSH密钥对远程登录阿里云云服务器
    第1课:SQL注入原理深度解析
    数据库设计三大范式
    linux指令大全(归类整理)
    linux目录结构
    linux-创建/使用快照/克隆(类似windows中备份还原)
  • 原文地址:https://www.cnblogs.com/yanjiayi098-001/p/11378066.html
Copyright © 2020-2023  润新知