• pandas-22 数据去重处理


    pandas-22 数据去重处理

    数据去重可以使用duplicated()和drop_duplicates()两个方法。
    DataFrame.duplicated(subset = None,keep =‘first’ )返回boolean Series表示重复行
    参数:
    subset:列标签或标签序列,可选
    仅考虑用于标识重复项的某些列,默认情况下使用所有列
    keep:{‘first’,‘last’,False},默认’first’

    • first:标记重复,True除了第一次出现。
    • last:标记重复,True除了最后一次出现。
    • 错误:将所有重复项标记为True。
    import numpy as np
    import pandas as pd
    from pandas import Series, DataFrame
    
    df = pd.read_csv('./demo_duplicate.csv')
    print(df)
    print(df['Seqno'].unique()) # [0. 1.]
    
    # 使用duplicated 查看 重复值
    # 参数 keep 可以标记重复值 {'first','last',False}
    print(df['Seqno'].duplicated())
    '''
    0    False
    1     True
    2     True
    3     True
    4    False
    Name: Seqno, dtype: bool
    '''
    
    # 删除 series 重复数据
    print(df['Seqno'].drop_duplicates())
    '''
    0    0.0
    4    1.0
    Name: Seqno, dtype: float64
    '''
    
    # 删除 dataframe 重复数据
    print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
    '''
        Price  Seqno Symbol        time
    0  1623.0    0.0   APPL  1473411962
    4  1649.0    1.0   APPL  1473411963
    '''
    # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
    print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
    '''
        Price  Seqno Symbol        time
    3  1623.0    0.0   APPL  1473411963
    4  1649.0    1.0   APPL  1473411963
    '''
    
  • 相关阅读:
    目前流行前端几大UI框架排行榜
    vue nginx配置
    快速切换npm源
    vue项目打包部署生产环境
    VScoed Vue settings.json配置
    java获取远程图片分辨率
    Fegin的使用总结
    线程池核心参数
    mysqldump定时任务生成备份文件内容为空解决方法
    对汉字编码
  • 原文地址:https://www.cnblogs.com/wenqiangit/p/11252859.html
Copyright © 2020-2023  润新知