shell脚本之awk(一)

运维必备技能

概述：

　　1.awk是一种编程语言，用于linux/unix下对文本和数据进行扫描。处理数据来源：标准输入、文件、管道。

　　 2.linux中常用的awk编译器版本有mawk,gawk。Redhat使用的是gawk，Ubuntu使用的是mawk.

原理：

　　 1. 逐行扫描文件，寻找匹配你指定模式的行，并在这些行上执行你指定的操作；

　　 2. awk 基本结构包括模式匹配(用于找到要处理的行)和处理过程(即处理动作)。

　　 3. awk 有两个特殊的模式：BEGIN 和 END，他们被放置在没有读取任何数据之前以及在所有数据读取完成以后执行。

提示：awk 读取文件内容的每一行时，将对比改行是否与给定的模式相匹配，
如果匹配则执行处理过程，否则对该行不做任何处理。 
如果没有指定处理脚本，则把匹配的行显示到标准输出，即默认处理动作是 print 打印行； 
如果没有指定模式匹配，则默认匹配所有数据。

awk 基本语法格式

awk程序脚本用一对花括号来定义，必须将脚本命令放在两个花括号{}中。此外，由于awk假定程序脚本是单个文本字符串，因此必须还要将脚本放到单引号中。
下面的例子在命令行上指定了一个简单的Hello World例子：

$ awk '{print "Hello World!"}'

1. 格式： awk [ POSIX or GNU style options ] -f program-file [ -- ] file ...

注释：POSIX or GNU style options 表示 gawk 支持 POSIX 以及 GNU 两种选项；
-f 后接脚本文件；file 表示准备处理的文档名称。

2、awk常用选项参数

　　-F th:指定分隔符为fs(默认分隔符为空格或制表符)；

　　-W compact or --compat, -W traditional or --traditional
　　在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。

　　-v a=1:设置一个变量a,值为1

　　-f awk.sh :从脚本文件awk.sh中读取awk指令，以取代在命令参数中输入处理脚本。

3. awk内置变量

　　ARGC: 命令行参数个数
　　FILENAME: 当前输入文档的名称
　　FNR: 当前输入文档的当前记录编号，尤其当有多个输入文档时有用
　　NR: 输入流的当前记录编号
　　NF: 当前记录的字段个数
　　FS: 字段分隔符
　　OFS: 输出字段分隔符，默认为空格
　　ORS: 输出记录分隔符，默认为换行符
　　RS: 输入记录分隔符，默认为换行符

相关阅读:
蛙蛙请教：把一段c算法代码转换成c#代码。
和病毒折腾了两天
WawaKM预览版发布，欢迎大家测试反馈哦
（转）深度分析如何在Hadoop中控制Map的数量
[转载]JAVA操作符
（转）Hive Index
Hadoop++：Hadoop的局部性能改良
深入了解Hive Index具体实现
Linux echo命令
（转）带索引的mapReduce

原文地址：https://www.cnblogs.com/xdong320/p/12804026.html