• 数据处理pandas


    1、缺失值时间戳不为NaN,为NaT, 同样判断都为isna()或notna()方法
    2、删值去重

    df.dropna()
    df.drop_duplicates()

    3、上下值插值

    df.fillna(method='pad') # 插取上面的值 可带参数limit = 
    df.fillna(method='bfill') # 插取下面的值 同时可有limit参数表示插几个值
    df.fillna(pd.mean()[[]]) # 插平均值,后面可接插的列数
    df.interpolate() # 线性插值

    插值借助于函数实现,已知数据去求解位置数据的值,插值在数据分析领域非常常见,好处是可以尽量还原数据本身的样子 线性插值的方法interpolate(),默认的线性插值的好处,在 原数据采用平均值或者上下值效果不是很好时(数值型变量存在连续型缺失值),可以尝试此方法。
    插值情形:

    Scipy
    - 数据增长速率越来越快,可以选择 `method='quadratic'`二次插值。 - 数据集呈现出累计分布的样子,推荐选择 `method='pchip'`。 - 需要填补缺省值,以平滑绘图为目标,推荐选择 `method='akima'`。

    4、Series

    加法 add

    减法 sub 

    乘法 mul

    除法 div

    5、DataFrame

    创建时间区间 date_range()  : 比如pd.date_range('today', periods=6)

    1) 创建方式,数组array

    2) 字典方式

    6、其他:

    1)列数据查询,查询多列时,需要双括号[[]],df[['列名1','列名2']],

    2)排序sort_values(by = '')

    3)修改值df.iat[,] ,df.loc['',''] 均会直接修改df

    4) 大小写转换df.str.lower() ,  相反用upper()

    ...

     



  • 相关阅读:
    Kettle 使用入门
    git mac客户端使用提交与同步
    MAC 远程桌面链接 证书或链接无效
    mac下wifi无法连接的问题
    mysql时间段内查询
    mybatis 特殊符号及like的使用
    mac下剪切文件或文件夹
    eclipse下使用git下载和上传项目
    unbutu下搭建FTP服务
    mybatis 的if else
  • 原文地址:https://www.cnblogs.com/hqczsh/p/11599743.html
Copyright © 2020-2023  润新知