DataFrame去重drop_duplicates

from pandas import DataFrame,Series
import pandas as pd
import numpy as np

# 移除重复数据
data = DataFrame({"k1":["one"]*3+["two"]*4,
                  "k2":[1,1,2,3,3,4,4]})
print(data)
'''
    k1  k2
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4
'''
# duplicated表示各行是否重复行
print(data.duplicated())
'''
0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool
'''
# 移除重复行
print(data.drop_duplicates())
'''
    k1  k2
0  one   1
2  one   2
3  two   3
5  two   4
'''
# 默认判断全部列，也可以指定部分列进行重复项判断
# 默认保留第一个出现的值组合，传入keep='last'则保留最后一个
print(data.drop_duplicates(["k1"]))
'''
    k1  k2
0  one   1
3  two   3
'''
print(data.drop_duplicates(["k1"],keep='last'))
'''
    k1  k2
2  one   2
6  two   4
'''

作者：朱阿飞

出处：https://www.cnblogs.com/nicole-zhang/

相关阅读:
Python列表去重的三种方法
关于Python的 a, b = b, a+b
Python爬取B站视频信息
Linux文件管理命令
（一）MySQL学习笔记
Linux特殊字符含义
在父容器div中图片下方有一条空隙问题
对Json的各种遍历方法
for循环使用append问题
IE兼容性

原文地址：https://www.cnblogs.com/nicole-zhang/p/14434303.html