随堂练习文本处理三剑客 AWK（一）

随堂练习文本处理三剑客 AWK（一）

文本处理三剑客之 awk

awk 工作原理和基本用法说明

awk：Aho, Weinberger, Kernighan，报告生成器，格式化文本输出，GNU/Linux发布的AWK目前由自由软件基金会（FSF）进行开发和维护，通常也称它为 GNU AWK

有多种版本：

　　AWK：原先来源于 AT & T 实验室的的AWK

　　NAWK：New awk，AT & T 实验室的AWK的升级版

　　GAWK：即GNU AWK。所有的GNU/Linux发布版都自带GAWK，它与AWK和NAWK完全兼容

gawk：模式扫描和处理语言，可以实现下面功能

　　文本处理

　　输出格式化的文本报表

　　执行算数运算

　　执行字符串操作

格式：

awk [options] 'program' var=value file…

awk [options] -f programfile var=value file…

说明：
program通常是被放在单引号中，并可以由三种部分组成

BEGIN语句块

模式匹配的通用语句块

END语句块

常见选项：

　　-F “分隔符” 指明输入时用到的字段分隔符，默认的分隔符是若干个连续空白符

　　-v var=value 变量赋值

Program格式：

pattern{action statements;..}

pattern：决定动作语句何时触发及触发事件，比如：BEGIN,END,正则表达式等

action statements：对数据进行处理，放在{}内指明，常见：print, printf

awk 工作过程

第一步：执行BEGIN{action;… }语句块中的语句

第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。

第三步：当读至输入流末尾时，执行END{action;…}语句块BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块 pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块

分割符、域和记录

　　由分隔符分隔的字段（列column,域field）标记$1,$2...$n称为域标识，$0为所有域，注意：和 shell中变量$符含义不同

　　文件的每一行称为记录record

　　如果省略action，则默认执行 print $0 的操作

常用的action分类

output statements：print,printf

Expressions：算术，比较表达式等

Compound statements：组合语句

Control statements：if, while等

input statements

awk控制语句

{ statements;… } 组合语句

if(condition) {statements;…}

if(condition) {statements;…} else {statements;…}

while(conditon) {statments;…}

do {statements;…} while(condition)

for(expr1;expr2;expr3) {statements;…}

break

continue

exit

动作 print

格式

print item1, item2, ...

说明：

逗号分隔符

输出item可以字符串，也可是数值；当前记录的字段、变量或awk的表达式

如省略item，相当于print $0

固定字符符需要用“ ” 引起来，而变量和数字不需要

范例

[root@centos8 ~]# awk '{print "hello,awk"}'

[root@centos8 ~]# seq 10 | awk '{print "hello,awk"}'
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk
hello,awk

[root@centos8 ~]# seq 3 | awk '{print 2*3}'
6
6
6

[root@centos8 ~]# awk -F: '{print "long"}' /etc/passwd

[root@centos8 ~]# awk -F: '{print}' /etc/passwd

[root@centos8 ~]# awk -F: '{print $0}' /etc/passwd

[root@centos8 ~]# awk -F: '{print $1,$3}' /etc/passwd

[root@centos8 ~]# awk -F: '{print $1" "$3}' /etc/passwd

[root@centos8 ~]# grep "^UUID" /etc/fstab | awk {'print $2,$3'}

/ xfs
/boot ext4
/data xfs
swap swap

面题：取出网站访问量最大的前3个IP

[root@centos8 ~]# awk '{print $1}' nginx.access.log | sort | uniq -c | sort -nr | head -n3

213 122.54.68.23

168 117.145.214.13

56 223.158.167.123

[root@centos8 ~]# awk '{print $1}' access_log | sort | uniq -c | sort -nr | head
4870 172.20.116.228

3429 172.20.116.208

2834 172.20.0.222

2613 172.20.112.14

2267 172.20.0.227

2262 172.20.116.179

2259 172.20.65.65

1565 172.20.0.76

1482 172.20.0.200

1110 172.20.28.145

面试题：取出分区利用率

[root@centos8 ~]# df | awk '{print $1,$5}'
Filesystem Use%
devtmpfs 0%
tmpfs 0%
tmpfs 2%
tmpfs 0%
/dev/sda2 3%
/dev/sda3 1%
/dev/sda1 15%
tmpfs 0%

#使用扩展的正则表达式
[root@centos8 ~]# df | awk -F"[[:space:]]+|%" '{print $5}'
Use
0
0
1
0
5
1
92
1

[root@centos8 ~]# df | awk -F'[[:space:]]+|%' '{print $1,$5}'
Filesystem Use
devtmpfs 0
tmpfs 0
tmpfs 2
tmpfs 0
/dev/sda2 3
/dev/sda3 1
/dev/sda1 15
tmpfs 0

[root@centos8 ~]# df | grep "^/dev/sd" | awk -F"[[:space:]]+|%" '{print $5}'

3
1
15

[root@centos8 ~]# df | grep '^/dev/sd' | awk -F'[[:space:]]+|%' '{print $1,$5}'

/dev/sda2 3
/dev/sda3 1
/dev/sda1 15

[root@centos8 ~]# df | awk -F"[[:space:]]+|%" '/^/dev/sd/{print $5}'

3
1
15

[root@centos8 ~]# df | awk -F'[[:space:]]+|%' '/^/dev/sd/{print $1,$5}'

/dev/sda2 3
/dev/sda3 1
/dev/sda1 15

面试题：取 ifconfig 输出结果中的IP地址

[root@centos8 ~]# ifconfig eth0 | awk '/netmask/{print $2}'

10.0.0.100

[root@centos6 ~]# ifconfig eth0 | awk -F " +|:" '/Mask/{print $4}'

10.0.0.6

[root@centos8 ~]# ifconfig eth0 | sed -nr '2s/^[0-9]+([0-9.]+) .*$/1/p'

10.0.0.100

[root@centos6 ~]# ifconfig eth0 | sed -nr '2s/^[0-9]+([0-9.]+) .*$/1/p'

10.0.0.6

面试题：文件host_list.log 如下格式，请提取”.longwang.com”前面的主机名部分并写入到回到该文件中

[root@centos8 ~]# cat host_list.log
1 www.longwang.com
2 blog.longwang.com
3 study.longwang.com
4 linux.longwang.com
5 python.longwang.com

[root@centos8 ~]# awk -F"[ .]" '{print $2}' host_list.log

www
blog
study
linux
python

[root@centos8 ~]# awk -F"[ .]" '{print $2}' host_list.log >> host_list.log

[root@centos8 ~]#cat host_list.log
1 www.longwang.com
2 blog.longwang.com
3 study.longwang.com
4 linux.longwang.com
5 python.longwang.com

www
blog
study
linux
python

awk变量

常见的内置变量

FS：输入字段分隔符，默认为空白字符,功能相当于 -F

OFS：输出字段分隔符，默认为空白字符

RS：输入记录record分隔符，指定输入时的换行符

ORS：输出记录分隔符，输出时用指定符号代替换行符

NF：字段数量

NR：记录的编号

FNR：各文件分别计数，记录的编号

FILENAME：当前文件名

ARGC：命令行参数的个数

ARGV：数组，保存的是命令行所给定的各参数，每一个参数：ARGV[0]，......

awk中的变量分为：内置和自定义变量

常见的内置变量

　　FS：输入字段分隔符，默认为空白字符,功能相当于 -F
范例：

awk -v FS=':' '{print $1,FS,$3}' /etc/passwd

awk -v FS=":" '{print $1FS$3}' /etc/passwd

awk –F: '{print $1,$3,$7}' /etc/passwd

S=:;awk -v FS=$S '{print $1FS$3}' /etc/passwd

[root@centos8 ~]# awk -v FS=":" '{print $1FS$3}' /etc/passwd |head -n3
root:0
bin:1
daemon:2

[root@centos8 ~]# S=:;awk -F$S '{print $1,$3}' /etc/passwd|head -n3
root 0
bin 1
daemon 2

#-F 和 FS变量功能一样，同时使用会冲突
[root@centos8 ~]# awk -v FS=":" -F";" '{print $1FS$3}' /etc/passwd |head -n3
root:x:0:0:root:/root:/bin/bash;
bin:x:1:1:bin:/bin:/sbin/nologin;
daemon:x:2:2:daemon:/sbin:/sbin/nologin;

[root@centos8 ~]# awk -F";" -v FS=":" '{print $1FS$3}' /etc/passwd |head -n3
root:0
bin:1
daemon:2

　　OFS：输出字段分隔符，默认为空白字符

范例

[root@centos8 ~]# awk -v FS=':' '{print $1,$3,$7}' /etc/passwd | head -n1

root 0 /bin/bash

[root@centos8 ~]# awk -v FS=":" -v OFS=":" '{print $1,$3,$7}'

/etc/passwd|head -n1
root:0:/bin/bash

　　RS：输入记录record分隔符，指定输入时的换行符

范例：

awk -v RS=' ' ‘{print }’ /etc/passwd

　　ORS：输出记录分隔符，输出时用指定符号代替换行符

范例

awk -v RS=' ' -v ORS='###' '{print $0}' /etc/passwd

　　NF：字段数量

范例

#引用变量时，变量前不需加$

[root@centos8 ~]# awk -F: '{print NF}' /etc/fstab

[root@centos8 ~]# awk -F: '{print $(NF-1)}' /etc/fstab

[root@centos8 ~]# ls /misc/cd/BaseOS/Packages/*.rpm | awk -F ":" '{print $(NF-1)}' | sort | uniq -c

389 i686
208 noarch
1060 x86_64

面试题：接数最多的前3个IP

[root@centos8 ~]# awk -F " +|:" '{print $(NF-2)}' sos.log | sort | uniq -c | sort -nr | head -n3

20 223.66.64.148

16 119.23.176.118

13 182.250.65.202

[root@centos8 ~]# awk -F " +|:" '/^ESTAB/{print $(NF-2)}' sos.log | sort | uniq -c | sort -nr | head -n3

15 223.77.34.147

10 182.202.66.23

8 116.134.156.88

[root@centos8 ~]# ss -nt | grep "^ESTAB" | awk -F"[[:space:]]+|:" '{print $(NF-2)}'

10.0.0.1

10.0.0.100

10.0.0.1

[root@centos8 ~]# ss -nt | awk -F"[[:space:]]+|:" '/^ESTAB/{print $(NF-2)}'

Address
10.0.0.1

[root@centos8 ~]# ss -tn | awk -F: '{print $(NF-1)}' | awk '/^[0-9]/{print $NF}' | sort | uniq -c | head -n3

范例：每十分钟检查将连接数超过100个以上的IP放入黑名单拒绝访问

[root@centos8 ~]# cat deny_dos.sh

#!/bin/bash

LINK=100

while true ;do

　　ss -nt | awk -F"[[:space:]]+|:" '/^ESTAB/{print $(NF-2)}' | sort | uniq -c | while read count ip ;do

　　　　if [ $count -gt $LINK ]; then

　　　　　　iptables -A INPUT -s $ip -j REJECT

　　　　fi

　　done

done

[root@centos8 ~]# chmod +x /root/deny_dos.sh

[root@centos8 ~]# crontab -e

[root@centos8 ~]# crontab -l

*/10 * * * * /root/deny_dos.sh

范例：

[root@centos8 ~]# cat deny_dos.sh

#!/bin/bash

IPLIST=`awk -F" +|:" '/^ESTAB/{print $(NF-2)}' sos.log | sort | uniq -c | sort -nr | head -n3 | awk '{print $2}'`

for ip in $IPLIST;do

　　iptables -A INPUT -s $ip -j REJECT

done

　　NR：记录的编号

范例：

[root@centos8 ~]# awk '{print NR,$0}' /etc/issue /etc/centos-release
1 S
2 Kernel on an m
3
4 CentOS Linux release 8.1.1911 (Core)

范例：取ifconfig输出结果中的IP地址

[root@centos8 ~]# ifconfig eth0 | awk '/netmask/{print $2}'
10.0.0.100

[root@centos8 ~]# ifconfig eth0 | awk 'NR==2{print $2}'
10.0.0.100

范例：

[root@centos8 ~]# awk -F: '{print NR}' /etc/passwd
1
2
3
.......
[root@centos8 ~]# awk -F: 'END{print NR}' /etc/passwd
57

[root@centos8 ~]# awk -F: 'BEGIN{print NR}' /etc/passwd
0

　　FNR：各文件分别计数，记录的编号

范例：

awk '{print FNR}' /etc/fstab /etc/inittab

[root@centos8 ~]# awk '{print NR,$0}' /etc/issue /etc/redhat-release
1 S
2 Kernel on an m
3
4 CentOS Linux release 8.0.1905 (Core)

[root@centos8 script40]# awk '{print FNR,$0}' /etc/issue /etc/redhat-release
1 S
2 Kernel on an m
3
1 CentOS Linux release 8.0.1905 (Core)

　　FILENAME：当前文件名

范例：

[root@centos8 ~]# awk '{print FILENAME}' /etc/fstab

[root@centos8 ~]# awk '{print FNR,FILENAME,$0}' /etc/issue /etc/redhat-release
1 /etc/issue S
2 /etc/issue Kernel on an m
3 /etc/issue
1 /etc/redhat-release CentOS Linux release 8.0.1905 (Core)

　　ARGC：命令行参数的个数

范例：

[root@centos8 ~]# awk '{print ARGC}' /etc/issue /etc/redhat-release
3
3
3
3

[root@centos8 ~]# awk 'BEGIN{print ARGC}' /etc/issue /etc/redhat-release
3

　　ARGV：数组，保存的是命令行所给定的各参数，每一个参数：ARGV[0]，......

范例：

[root@centos8 ~]# awk 'BEGIN{print ARGV[0]}' /etc/issue /etc/redhat-release
awk

[root@centos8 ~]# awk 'BEGIN{print ARGV[1]}' /etc/issue /etc/redhat-release
/etc/issue

[root@centos8 ~]# awk 'BEGIN{print ARGV[2]}' /etc/issue /etc/redhat-release
/etc/redhat-release

[root@centos8 ~]# awk 'BEGIN{print ARGV[3]}' /etc/issue /etc/redhat-release

自定义变量(区分字符大小写)
-v var=value
在program中直接定义

范例：

awk -v test='hello gawk' '{print test}' /etc/fstab

awk -v test='hello gawk' 'BEGIN{print test}'

awk 'BEGIN{test="hello,gawk";print test}'

awk -F: '{sex="male";print $1,sex,age;age=18}' /etc/passwd

cat awkscript

{print script,$1,$2}

awk -F: -f awkscript script="awk" /etc/passwd
相关阅读:
OTPUB知识课堂——VMware虚拟机应该如何优化
 春风十里，不如梭子鱼云安全解决方案全心为你！
企业进行云存储，必须先搞清楚这5个问题
 OTPUB知识讲堂——如何在云计算中部署SQL
Convertlab——营销的艺术，数字化的艺术
 腾讯云化解安全危机，开启网络安全智能时代
 11.2
笔记
 this
JS数据的基本类型
原文地址：https://www.cnblogs.com/xuanlv-0413/p/13294174.html

随堂练习 文本处理三剑客 AWK（一）

随堂练习文本处理三剑客 AWK（一）