• pandas基础--缺失数据处理


    一下代码的前提:import pandas as p

    缺失数据是数据分析中的常见现象。pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已。python内置的None值也会被当作NA处理。

     1 >>> string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
     2 >>> string_data
     3 0     aardvark
     4 1    artichoke
     5 2          NaN
     6 3      avocado
     7 dtype: object
     8 >>> string_data.isnull()
     9 0    False
    10 1    False
    11 2     True
    12 3    False
    13 dtype: bool
    14 >>> string_data[0] = None
    15 >>> string_data.isnull()  
    16 0     True
    17 1    False
    18 2     True
    19 3    False
    20 dtype: bool
    21 >>>

    NA处理方法。

    方式

    说明

    dropna

    根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度

    fillna

    用指定值或插值方法(如ffill或bfill)填充缺失数据

    isnull

    返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值NA,该对象的类型和源类型一样

    notnull

    isnull的否定式

    1.1 滤除缺失数据

    过滤掉缺失数据的方法有多种,可通过dropna实现。

     1 >>> from numpy import nan as NA
     2 >>> data = pd.Series([1, NA, 3.5, NA, 7]) 
     3 >>> data.dropna()
     4 0    1.0
     5 2    3.5
     6 4    7.0
     7 dtype: float64
     8 >>> data[data.isnull()] 
     9 1   NaN
    10 3   NaN
    11 dtype: float64
    12 >>> data[data.notnull()] 
    13 0    1.0
    14 2    3.5
    15 4    7.0
    16 dtype: float64

    对于DataFrame,可能希望丢弃全NA或含有NA的行或列。

     1 >>> data = pd.DataFrame([[1, 1.6, 3], [1, NA, NA], [NA, NA, NA], [NA, 6.5, 3]]) 
     2 >>> data
     3      0    1    2
     4 0  1.0  1.6  3.0
     5 1  1.0  NaN  NaN
     6 2  NaN  NaN  NaN
     7 3  NaN  6.5  3.0
     8 >>>
     9 >>> cleaned = data.dropna()  #默认丢弃任何含有缺失值的行
    10 >>> cleaned
    11      0    1    2
    12 0  1.0  1.6  3.0
    13 >>> data.dropna(how='all')  #只丢弃全为NA的行
    14      0    1    2
    15 0  1.0  1.6  3.0
    16 1  1.0  NaN  NaN
    17 3  NaN  6.5  3.0
    18 >>> data[4] = NA
    19 >>> data
    20      0    1    2   4
    21 0  1.0  1.6  3.0 NaN
    22 1  1.0  NaN  NaN NaN
    23 2  NaN  NaN  NaN NaN
    24 3  NaN  6.5  3.0 NaN
    25 >>> data.dropna(axis=1, how='all')  #丢弃列
    26      0    1    2
    27 0  1.0  1.6  3.0
    28 1  1.0  NaN  NaN
    29 2  NaN  NaN  NaN
    30 3  NaN  6.5  3.0
    31 >>>

    另一个滤除DataFrame行的问题涉及到时间序列数据。如果只想留下一部分观测数据,可以用thresh参数实现。

     1 >>> df = pd.DataFrame(np.random.randn(7, 3)) 
     2 >>> df 
     3           0         1         2
     4 0  0.752301  1.360969 -0.474561
     5 1  0.466749  0.563536  1.978575
     6 2  0.223606  0.414722  0.094315
     7 3 -1.687511 -0.116227  0.442363
     8 4  0.705580 -0.131169 -0.868425
     9 5 -0.158964 -0.164512 -0.937150
    10 6 -0.281537 -1.579942 -0.562886
    11 >>> df.loc[:4, 1] = NA
    12 >>> df.loc[:2, 2] = NA 
    13 >>> df
    14           0         1         2
    15 0  0.752301       NaN       NaN
    16 1  0.466749       NaN       NaN
    17 2  0.223606       NaN       NaN
    18 3 -1.687511       NaN  0.442363
    19 4  0.705580       NaN -0.868425
    20 5 -0.158964 -0.164512 -0.937150
    21 6 -0.281537 -1.579942 -0.562886
    22 >>> df.dropna(thresh=3)
    23           0         1         2
    24 5 -0.158964 -0.164512 -0.937150
    25 6 -0.281537 -1.579942 -0.562886
    26 >>>

    1.2  填充缺失数据

    fillna方法可实现将缺失值替换为一个常数值。

     1 >>> df 
     2           0         1         2
     3 0  0.752301       NaN       NaN
     4 1  0.466749       NaN       NaN
     5 2  0.223606       NaN       NaN
     6 3 -1.687511       NaN  0.442363
     7 4  0.705580       NaN -0.868425
     8 5 -0.158964 -0.164512 -0.937150
     9 6 -0.281537 -1.579942 -0.562886
    10 >>> df.fillna(0) 
    11           0         1         2
    12 0  0.752301  0.000000  0.000000
    13 1  0.466749  0.000000  0.000000
    14 2  0.223606  0.000000  0.000000
    15 3 -1.687511  0.000000  0.442363
    16 4  0.705580  0.000000 -0.868425
    17 5 -0.158964 -0.164512 -0.937150
    18 6 -0.281537 -1.579942 -0.562886
    19 >>> df.fillna({1:0.5, 3:-1})  #第1列的NA替换为0.5,第3列的NA替换为-1
    20           0         1         2
    21 0  0.752301  0.500000       NaN
    22 1  0.466749  0.500000       NaN
    23 2  0.223606  0.500000       NaN
    24 3 -1.687511  0.500000  0.442363
    25 4  0.705580  0.500000 -0.868425
    26 5 -0.158964 -0.164512 -0.937150
    27 6 -0.281537 -1.579942 -0.562886
    28 >>>

    fillna默认会返回新对象。但也可以对现有对象进行就地修改。

     1 >>> _ = df.fillna(0, inplace=True) 
     2 >>> df
     3           0         1         2
     4 0  0.752301  0.000000  0.000000
     5 1  0.466749  0.000000  0.000000
     6 2  0.223606  0.000000  0.000000
     7 3 -1.687511  0.000000  0.442363
     8 4  0.705580  0.000000 -0.868425
     9 5 -0.158964 -0.164512 -0.937150
    10 6 -0.281537 -1.579942 -0.562886
    11 >>>

    对reindex有效的插值方法也可以用于fillna。

     1 >>> df = pd.DataFrame(np.random.randn(6, 3))
     2 >>> df.loc[2:, 1] = NA
     3 >>> df.loc[4:, 2] = NA 
     4 >>> df
     5           0         1         2
     6 0 -1.433489  0.162951 -0.664600
     7 1  0.033722 -0.478252  0.480072
     8 2 -0.000977       NaN -1.555649
     9 3 -0.947501       NaN  0.089918
    10 4  1.360481       NaN       NaN
    11 5 -0.966030       NaN       NaN
    12 >>> df.fillna(method='ffill')
    13           0         1         2
    14 0 -1.433489  0.162951 -0.664600
    15 1  0.033722 -0.478252  0.480072
    16 2 -0.000977 -0.478252 -1.555649
    17 3 -0.947501 -0.478252  0.089918
    18 4  1.360481 -0.478252  0.089918
    19 5 -0.966030 -0.478252  0.089918
    20 >>> df.fillna(method='ffill', limit=2) 
    21           0         1         2
    22 0 -1.433489  0.162951 -0.664600
    23 1  0.033722 -0.478252  0.480072
    24 2 -0.000977 -0.478252 -1.555649
    25 3 -0.947501 -0.478252  0.089918
    26 4  1.360481       NaN  0.089918
    27 5 -0.966030       NaN  0.089918

    下表是fillna的参数参考。

    参数

    说明

    value

    用于填充缺失值的标量值或字典对象

    method

    插值方式,如果函数调用时未指定其他参数的话,默认为“ffill”

    axis

    带填充的轴,默认为axis=0

    limit

    (对于向前或先后填充)可以连续填充的最大数量

  • 相关阅读:
    文件目录T位
    改变文件权限的用户身份
    改变进程打开文件默认权限检查方式
    新建文件的UID和GID
    进程的用户ID
    centos7使用无线wifi连接
    2.8. 创建 NSManagedObject 的子类 (Core Data 应用程序实践指南)
    2.7. 属性的各种设置选项(Core Data 应用程序实践指南)
    2.6. 类型(Core Data 应用程序实践指南)
    2.5. Integer 16 、Integer 32、Integer 64(Core Data 应用程序实践指南)
  • 原文地址:https://www.cnblogs.com/mrlayfolk/p/12256474.html
Copyright © 2020-2023  润新知