• python数据探索


    数据质量分析 
    脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 
    1.缺失值处理 
    统计缺失率,缺失数 
    2.异常值处理 
    (1)简单统计量分析 
    (2)3Q原则 
    正态分布情况下,小概率事件为异常值 
    不服从正太分布的,可以用原离平均值多少倍标准差来分析 
    (3)箱线图分析 
    使用describe()描述

    主要数据探索函数 
    1.Pandas常用函数总结

    导入数据

    导出数据

    查看、检查数据

    数据选取

    数据清理

        dataframe处理NAN值

        data_3=data_3.where(data_3.notnull(),0)

       dataframe类型转换

        data_3['Var5']=data_3['Var5'].astype(float)

    数据处理:Filter 、Sort 和 GroupBy

     
    查看具体有哪几个值
    ids = [1,4,3,3,4,2,3,4,5,6,1]
    news_ids = list(set(ids))
    news_ids.sort(ids.index)

    数据合并、数据统计 

    2.拓展统计特征函数

    累计统计特征函数

    • cumsum :依次给出前1-n个数的和
    • cumprod: 依次给出前1-n个数的积
    • cummax: 依次给出前1-n个数的最大值
    • cummin: 依次给出前1-n个数的最小值
    • rolling_sum(): 总和(按列)
    • rolling_mean(): 算数平均值
    • rolling_var(): 方差
    • rolling_std(): 标准差
    • rolling_corr(): 相关系数矩阵
    • rolling_cov(): 协方差矩阵
    • rolling_skew():偏度(三阶矩)
    • rolling_kurt(): 峰度(四阶矩)
  • 相关阅读:
    动画差值
    高达模型
    TCP/IP负载均衡
    FreeImage使用
    Game Programming Pattern
    Apple Instruments
    GLEW OpenGL Access violation when using glGenVertexArrays
    微服务了解
    summary
    事务传播行为
  • 原文地址:https://www.cnblogs.com/yaowentao/p/8882386.html
Copyright © 2020-2023  润新知