在百度nlp实习一个月时间里用到的shell操作

在百度nlp实习一个月时间里用到的shell操作

文本行中各列打乱：

awk 'BEGIN{srand()}{for(i=1;i<=NF;i++) b[rand()NF]=$i}END{for(x in b)printf "%s ",b[x]}'` data

文本行中各行打乱：

awk 'BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}' data

shuf -n1000 data

以a.txt作为pattern查找b.txt，实际是求2者交集：

grep -F -x -f a.txt b.txt

以a.txt作为pattern查找b.txt，显示不在a.txt中的数据，实际是求差集b-a：

grep -F -v -x -f a.txt b.txt

编码转换：

iconv -f gb18030 -t utf8 filename

以_为分隔符，第二列为键值排序，稳定排序（默认不稳定）：

sort -t_ -k1,2 -s filename

对大文件进行外部排序并去重，以temp目录作为缓存：

sort -u -T temp filename

sort filename | uniq -c计数唯一的排序的记录 -d仅仅显示重复的记录 -u仅仅显示没有重复的记录

在preview中打开awk的man文档：

man -t awk | open -a Preview -f

awk和cut简单用法：

awk -F: -v 'OFS= ' '{print "all users are:",$1,$2,$3,$4,$5,$6,$7}' /etc/passwd | cut -f 1,6

wc -l 行数 -c字节数 -w字数
相关阅读:
FunctionGraph无缝集成Express应用
 三分钟迁移Spring boot工程到Serverless
分布式数据库中间件使用经验分享
 基于OAS设计可扩展OpenAPI
从一次小哥哥与小姐姐的转账开始，浅谈分布式事务从理论到实践
 分布式数据库DDM Sidecar模式负载均衡
 Redis缓存数据库安全加固指导（二）
数据存储课后作业
 GrideVlew提供点击按钮添加新数据，单击项目修改，长按删除功能
 AutoCompleteTextView,Spinner,消息提示
原文地址：https://www.cnblogs.com/zzllzy/p/3885149.html