09、shell三剑客值awk

awk

awk是一个处理文本的编程语言工具，能用简短的程序处理标准输入或文件、数据排序、计算以及生成报表等等。

在Linux系统下默认awk是gawk，它是awk的GNU版本。可以通过命令查看应用的版本：ls -l /bin/awk

基本的命令语法：awk option 'pattern {action}' file

其中pattern表示AWK在数据中查找的内容，而action是在找到匹配内容时所执行的一系列命令。花括号用于根据特定的模式对一系列指令进行分组。

awk处理的工作方式与数据库类似，支持对记录和字段处理，这也是grep和sed不能实现的。

在awk中，缺省的情况下将文本文件中的一行视为一个记录，逐行放到内存中处理，而将一行中的某一部分作为记录中的一个字段。用1,2,3...数字的方式顺序的表示行（记录）中的不同字段。用$后跟数字，引用对应的字段，以逗号分隔，0表示整个行。

3.1 选项

选项	描述
-f program-file	从文件中读取awk程序源文件
-F fs	指定fs为输入字段分隔符
-v var=value	变量赋值
--posix	兼容POSIX正则表达式
--dump-variables=[file]	把awk命令时的全局变量写入文件，默认文件是awkvars.out
--profile=[file]	格式化awk语句到文件，默认是awkprof.out

3.2 模式

常用模式有：

Pattern	Description
BEGIN{ }	给程序赋予初始状态，先执行的工作
END{ }	程序结束之后执行的一些扫尾工作
/regular expression/	为每个输入记录匹配正则表达式
pattern && pattern	逻辑and，满足两个模式
pattern \|\| pattern	逻辑or，满足其中一个模式
! pattern	逻辑not，不满足模式
pattern1, pattern2	范围模式，匹配所有模式1的记录，直到匹配到模式2

而动作呢，就是下面所讲的print、流程控制、I/O语句等。

示例：

1）从文件读取awk程序处理文件

2）指定分隔符，打印指定字段

还可以指定多个分隔符，作为同一个分隔符处理：

[]元字符的意思是符号其中任意一个字符，也就是说每遇到一个/或#时就分隔一个字段，当用多个分隔符时，就能更方面处理字段了。

3）变量赋值

4）输出awk全局变量到文件

5）BEGIN和END

BEGIN模式是在处理文件之前执行该操作，常用于修改内置变量、变量赋值和打印输出的页眉或标题。

例如：打印页眉

END模式是在程序处理完才会执行。

例如：打印页尾

6）格式化输出awk命令到文件

7）/re/正则匹配

8）逻辑and、or和not

9）匹配范围

3.3 内置变量

变量名	描述
FS	输入字段分隔符，默认是空格或制表符
OFS	输出字段分隔符，默认是空格
RS	输入记录分隔符，默认是换行符
ORS	输出记录分隔符，默认是换行符
NF	统计当前记录中字段个数
NR	统计记录编号，每处理一行记录，编号就会+1
FNR	统计记录编号，每处理一行记录，编号也会+1，与NR不同的是，处理第二个文件时，编号会重新计数。
ARGC	命令行参数数量
ARGIND	当前正在处理的文件索引值。第一个文件是1，第二个文件是2，以此类推
ARGV	命令行参数数组序列数组，下标从0开始，ARGV[0]是awk
ENVIRON	当前系统的环境变量
FILENAME	输出当前处理的文件名
IGNORECASE	忽略大小写
SUBSEP	数组中下标的分隔符，默认为"34"

示例：

1）FS和OFS

在程序开始前重新赋值FS变量，改变默认分隔符为冒号，与-F一样。

2）RS和ORS

RS默认是分隔每行，如果想指定以某个字符作为分隔符来处理记录：

3）NF

NF是打印字段个数。

4）NR和FNR

NR统计记录编号，每处理一行记录，编号就会+1，FNR不同的是在统计第二个文件时会重新计数。

看下NR和FNR的区别：

可以看出NR每处理一行就会+1，而FNR在处理第二个文件时，编号重新计数。同时也知道awk处理两个文件时，是合并到一起处理。

当FNR==NR时，说明在处理第一个文件内容，不等于时说明在处理第二个文件内容。

一般FNR在处理多个文件时会用到，下面会讲解。

5）ARGC和ARGV

ARGC是命令行参数数量

ARGV是将命令行参数存到数组，元素由ARGC指定，数组下标从0开始

6）ARGIND

ARGIND是当前正在处理的文件索引值，第一个文件是1，第二个文件是2，以此类推，从而可以通过这种方式判断正在处理哪个文件。

7）ENVIRON

ENVIRON调用系统变量。

8）FILENAME

FILENAME是当前处理文件的文件名。

3.4 操作符

运算符	描述
（....）	分组
$	字段引用
++ --	递增和递减
+ - !	加号，减号，和逻辑否定
* / %	乘，除和取余
+ -	加法，减法
\| \|&	管道，用于getline，print和printf
< > <= >= != ==	关系运算符
~ !~	正则表达式匹配，否定正则表达式匹配
in	数组成员
&& \|\|	逻辑and，逻辑or
?:	简写条件表达式： expr1 ? expr2 : expr3 第一个表达式为真，执行expr2，否则执行expr3
= += -= *= /= %= ^=	变量赋值运算符

须知：在awk中，有3种情况表达式为假：数字是0，空字符串和未定义的值

数值运算，未定义变量初始值为0。字符运算，未定义变量初始值为空。

举例测试：

1）截取整数

2）感叹号

2）不匹配某行

3）乘法和除法

4）管道符使用

5）正则表达式匹配

6）判断数组成员

7）三目运算符

8）变量赋值

3.5 流程控制

1）if语句

格式：if(condition) statement [ else statement ]

2）while语句

格式：while(condition) statement

3）for语句C语言风格

格式：for(expr1; expr2; expr3) statement

5）break和continue语句

break跳过所有循环，continue跳过当前循环。

格式：

deletearray[index] 删除数组元素

deletearray 删除数组

格式：exit[ expression ]

exit退出程序，与shell的exit一样。[ expr]是0-255之间的数字。

8.3.6 数组

数组是用来存储一系列值的变量，通过下标（索引）来访问值。

awk中数组称为关联数组，不仅可以使用数字作为下标，还可以使用字符串作为下标。

数组元素的键和值存储在awk程序内部的一个表中，该表采用散列算法，因此数组元素是随机排序。

数组格式：array[index]=value

1）自定义数组

2）通过NR设置记录下标，下标从1开始

3）通过for循环遍历数组

上面打印的i是数组的下标。

第一种for循环的结果是乱序的，刚说过，数组是无序存储。

第二种for循环通过下标获取的情况是排序正常。

所以当下标是数字序列时，还是用for(expr1;expr2;expr3)循环表达式比较好，保持顺序不变。

4）通过++方式作为下标

x被awk初始化值是0，没循环一次+1

5）使用字段作为下标

6）统计相同字段出现次数

第一个字段作为下标，值被++初始化是0，每次遇到下标（第一个字段）一样时，对应的值就会被+1，因此实现了统计出现次数。

想要实现去重的的话就简单了，只要打印下标即可。

7）统计TCP连接状态

8）只打印出现次数大于等于2的

9）去重

只打印重复的行说明：先明白一个情况，当值是0是为假，1为真，知道这点就不难理解了。由于执行了++当处理第一条记录时，初始值是0为假，就不打印，如果再遇到相同的记录，值就会+1，不为0，打印。

去重说明：初始值是0为假，感叹号取反为真，打印，也就是说，每个记录的第一个值都是为0，所以都会打印，如果再遇到相同的记录+1，值就会为真，取反为假就不打印。

10）统计每个相同字段的某字段总数：

11）多维数组

awk的多维数组，实际上awk并不支持多维数组，而是逻辑上模拟二维数组的访问方式，比如a[a,b]=1，使用SUBSEP（默认34）作为分隔下标字段，存储后是这样a34b。

示例：

3.7 内置函数

函数	描述
int(expr)	截断为整数
sqrt(expr)	平方根
rand()	返回一个随机数N，0和1范围，0 < N < 1
srand([expr])	使用expr生成随机数，如果不指定，默认使用当前时间为种子，如果前面有种子则使用生成随机数
asort(a, b)	对数组a的值进行排序，把排序后的值存到新的数组b中，新排序的数组下标从1开始
asorti(a,b)	对数组a的下标进行排序，同上
sub(r, s [, t])	对输入的记录用s替换r，t可选针对某字段替换，但只替换第一个字符串
gsub(r,s [, t])	对输入的记录用s替换r，t可选针对某字段替换，替换所有字符串
index(s, t)	返回s中字符串t的索引位置，0为不存在
length([s])	返回s的长度
match(s, r [, a])	测试字符串s是否包含匹配r的字符串
split(s, a [, r [, seps] ])	根据分隔符seps将s分成数组a
substr(s, i [, n])	截取字符串s从i开始到长度n，如果n没指定则是剩余部分
tolower(str)	str中的所有大写转换成小写
toupper(str)	str中的所有小写转换成大写
systime()	当前时间戳
strftime([format [, timestamp[, utc-flag]]])	格式化输出时间，将时间戳转为字符串

示例：

1）int()

2）sqrt()

获取9的平方根：

3）rand()和srand()

如果想更完美生成随机数，还得做相应的处理！

4）asort()和asorti()

5）sub()和gsub()

在指定行前后加一行：

6）index()

7）length()

8）split()

9）substr()

10）tolower()和toupper()

11)时间处理

3.8 I/O语句

语句	描述
getline	设置$0来自下一个输入记录
getline var	设置var来自下一个输入记录
command \| getline [var]	运行命令管道输出到$0或var
next	停止当前处理的输入记录
print	打印当前记录
printf fmt, expr-list	格式化输出
printf fmt, expr-list >file	格式输出和写到文件
system(cmd-line)	执行命令和返回状态
print ... >> file	追加输出到文件
print ... \| command	打印输出作为命令输入

示例：

1）getline

2）getline var

4）next

5）system()

6）打印结果写到文件

7）管道连接shell命令

格式化输出，默认打印字符串不换行。

格式：printf [format] arguments

Format	描述
%s	一个字符串
%d,%i	一个小数
%f	一个浮点数
%.ns	输出字符串，n是输出几个字符
%ni	输出整数，n是输出几个数字
%m.nf	输出浮点数，m是输出整数位数，n是输出的小数位数
%x	不带正负号的十六进制，使用a至f表示10到15
%X	不带正负号的十六进制，使用A至F表示10至15
%%	输出单个%
%-5s	左对齐，对参数每个字段左对齐,宽度为5
%-4.2f	左对齐，宽度为4，保留两位小数
%5s	右对齐，不加横线表示右对齐

示例：

3.10 自定义函数

格式：function name(parameter list) { statements }

示例：

3.11 需求案例

1）分析Nginx日志

日志格式：'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'

2）两个文件对比

找出b文件在a文件相同记录：

3）合并两个文件

将a文件合并到b文件：

将a文件相同IP的服务名合并：

说明：数组a存储是$1=a[$1] $2，第一个a[$1]是以第一个字段为下标，值是a[$1] $2，也就是$1=a[$1] $2，值的a[$1]是用第一个字段为下标获取对应的值，但第一次数组a还没有元素，那么a[$1]是空值，此时数组存储是192.168.1.1=httpd，再遇到192.168.1.1时，a[$1]通过第一字段下标获得上次数组的httpd，把当前处理的行第二个字段放到上一次同下标的值后面，作为下标192.168.1.1的新值。此时数组存储是192.168.1.1=httpd tomcat。每次遇到相同的下标（第一个字段）就会获取上次这个下标对应的值与当前字段并作为此下标的新值。

4）将第一列合并到一行

说明：

for循环是遍历每行的字段，NF等于3，循环3次。

读取第一行时：

第一个字段：a[1]=a[1]1" " 值a[1]还未定义数组，下标也获取不到对应的值，所以为空，因此a[1]=1 。

第二个字段：a[2]=a[2]2" " 值a[2]数组a已经定义，但没有2这个下标，也获取不到对应的值，为空，因此a[2]=2 。

第三个字段：a[3]=a[3]3" " 值a[2]与上面一样，为空,a[3]=3 。

读取第二行时：

第一个字段：a[1]=a[1]4" " 值a[2]获取数组a的2为下标对应的值，上面已经有这个下标了，对应的值是1，因此a[1]=1 4

第二个字段：a[2]=a[2]5" " 同上，a[2]=2 5

第三个字段：a[3]=a[3]6" " 同上，a[2]=3 6

读取第三行时处理方式同上，数组最后还是三个下标，分别是1=1 4 7，2=2 5 8，3=36 9。最后for循环输出所有下标值。

5）字符串拆分，统计出现的次数

字符串拆分：

统计字符串中每个字母出现的次数：

5）费用统计

6）获取数字字段最大值

7）去除第一行和最后一行

读取第一行，NR=1，不执行print s，s=1

读取第二行，NR=2，不执行print s，s=2 （大于为真）

读取第三行，NR=3，执行print s，此时s是上一次p赋值内容2，s=3

最后一行，执行print s，打印倒数第二行，s=最后一行

获取Nginx负载均衡配置端IP和端口：

读取第一行，i初始值为0，0>1为假，不执行print s，x=example-servers1，i=1

读取第二行，i=1，1>1为假，不执行prints，s=127.0.0.1:80,i=2

读取第三行，i=2，2>1为真，执行prints，此时s是上一次s赋值内容127.0.0.1:80，i=3

最后一行，执行print s，打印倒数第二行，s=最后一行。

这种方式与上面一样，只是用i++作为计数器。

相关阅读:
sparql学习sparql示例、dbpedia在线验证
 中国绿卡
 逾期率的水有多深，你知道吗？
ICO和区块链区别
 What are the benefits to using anonymous functions instead of named functions for callbacks and parameters in JavaScript event code?
Link static data in sql source control
sql data compare
viewbag
多态的实际使用
 win10 sedlauncher.exe占用cpu处理
原文地址：https://www.cnblogs.com/hackerlin/p/12503850.html

09、shell三剑客值awk

awk

3.1 选项

3.2 模式

3.3 内置变量

3.4 操作符

3.5 流程控制

8.3.6 数组

3.7 内置函数

3.8 I/O语句

3.9 printf语句

3.10 自定义函数

3.11 需求案例