经常会碰到文件里有重复记录的场景,要么去除重复记录,要么统计下重复记录数,这些简单的功能可以通过shell命令里的sort,uniq组合实现,
比如文件a.txt记录如下
test,test1,test2 test test1 test2 test,test1,test2 abcd edfg abcd ddddd
去除重复行:
sort a.txt |uniq
abcd ddddd edfg test test,test1,test2 test1 test2
查找非重复行
[kh@local ~/]$ sort a.txt |uniq -u ddddd edfg test test1 test2
查找重复行
[kh@local ~/]$ sort a.txt |uniq -d abcd test,test1,test2
统计
[kh@local ~/]$ sort a.txt |uniq -c 1 2 abcd 1 ddddd 1 edfg 1 test 2 test,test1,test2 1 test1 1 test2