• pandas 删除重复项


    使用如下函数:

    drop_duplicates

    具体示例如下:

    import pandas as pd
    # 建立一个dataframe数据
    df = pd.DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
    df['v1']=range(7)
    df  
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    1.删除完全重复的行
    df.drop_duplicates()
    # 由于没有完全重复的行,因此返回结果跟原数据一致
    # 结果:
        k1  k2  v1
    0   one 1   0
    1   one 1   1
    2   one 2   2
    3   two 3   3
    4   two 3   4
    5   two 4   5
    6   two 4   6
    2.按k1进行去重,对于重复项,保留第一次出现的值
    df.drop_duplicates('k1',keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    3   two 3   3
    3.按k2和k1两列进行去重
    df.drop_duplicates(['k2','k1'],keep='first')
    # 结果:
        k1  k2  v1
    0   one 1   0
    2   one 2   2
    3   two 3   3
    5   two 4   5

    keep:{‘first’, ‘last’, False}, 默认值 ‘first’

    • first:保留第一次出现的重复行,删除后面的重复行。
    • last:删除前面的重复项,保留最后一次出现的重复行。
    • False:删除所有重复项

    参考链接:https://www.jianshu.com/p/cb217042aca9

    不考虑业务场景,一味的争执技术的高下,都是耍流氓。
  • 相关阅读:
    史蒂夫·乔布斯-读书笔记3
    史蒂夫·乔布斯-读书笔记2
    史蒂夫·乔布斯-读书笔记1
    Mac配置Qt环境——Could not resolve SDK path for 'macosx10.8'
    相信
    搞笑语录 一
    C++ 引用
    C++ inline函数
    AI-随机迷宫&迷宫求解
    sizeof && strlen 的区别
  • 原文地址:https://www.cnblogs.com/leoych/p/14286635.html
Copyright © 2020-2023  润新知