【one day one linux】好用的数据处理工具awk

【one day one linux】好用的数据处理工具awk
awk:好用的数据处理工具

取自《鸟哥私房菜》awk一节

应用：awk是以一行为一次的处理单位，将一行分成数个“字段”进行处理。
```
#awk的命令格式
awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
```
awk后面接两个单引号并加上大括号{}来设置想要对数据的处理动作。awk处理后面接的文件名字.

awk主要处理每一行的字段内的数据，而默认的字段的分隔符为空格键或者[tab]键。

如下的例子，处理last取出的登录数据：
```
last -n 5
```
```
# last -n 5 | awk '{print $1 "	" $3}'
```
上面是默认使用空格键作为分隔符。

有上面可以看出awk把每个字段分配一个变量名称，$1表示第一个字段，$2表示第二个字段，而$0表示一整行。

awk的处理流程是：
1. 读入第一行，并将第一行的数据填入$0 $1 $2等变量中
2. 依据条件类型限制，判断是否进行后面的动作。（上面的没有条件类型）
3. 做完所有的动作和条件类型（上面的动作就是"print $1 " " $3"）
4. 后面还有行的话，重复以上的动作
awk的内置变量，可以查看到底有几行，几列

变量名称代表意义

NF 每一行（$0）拥有的字段总数

NR 目前awk所处理的是“第几行”数据

FS 目前的分割字符，默认是空格键

上面的last -n 5的例子来做说明：
- 列出每一行的账号（就是$1）
- 列出目前处理的行数（就是awk内的NR变量）
- 并且说明，该行有多少字段（就是awk内的NF变量）
```
# last -n 5 | awk '{print $1 "	 lines: "NR "	 columes: "NF}'
```
有上面的代码可以看出：
- 当awk后续所有的动作都是用 ' 单引号括起来的
- print打印时，如果属于非变量的文字需要使用 " 双引号括起来
awk的逻辑运算和条件

awk需要使用判断条件，所以就有逻辑运算符，和C语言差不多： "<" ">" ">=" "<=" "==" "!="

下面使用cat 查看/etc/passwd文件的字符串，他的第一个字段是账号，第三个字段是UID,使用awk筛选出UID小于10 的数据
```
# cat /etc/passwd | awk '{FS=":"} $3<10 {print $1 "	" $3}'
```
可以看到，这里的第一行是没有被处理的，这里是因为我们读入第一行的时候，那些变量$1 $2 ...默认还是以空格分割的，所以我们虽然定义了FS=":"了，但是切仅能作用在第二行后才开始生效。

解决办法：利用BEGIN关键字，like this
```
# cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "	" $3}'
```
awk计算处理数据
```
# cat pay.txt | 
awk 'NR==1{printf "%10s %10s  %10s %10s  %10s
",$1,$2,$3,$4,"Total"} 
NR>=2{total = $2+$3+$4 printf "%10d %10d  %10d %10d %10.2f",$1,$2,$3,$4,total}'
```
这里这条命令一直运行出错，待稍后查看
相关阅读:
linux下activemq安装与配置
 Linux设置开放一个端口
 使用codis-admin搭建codis集群
 elasticsearch7.0安装及配置优化
 ELK详细安装部署
 filebeat安装部署
 ElasticSearch-5.3.1集群环境搭建，安装ElasticSearch-head插件，安装错误解决
 手把手教你搭建一个 Elasticsearch 集群
 ES 集群管理（集群规划、集群搭建、集群管理）
Elasticsearch如何关掉服务
原文地址：https://www.cnblogs.com/panhao/p/5241803.html

变量名称	代表意义
NF	每一行（$0）拥有的字段总数
NR	目前awk所处理的是“第几行”数据
FS	目前的分割字符，默认是空格键