• Linux中awk后面的RS, ORS, FS, OFS 用法


    一、RS 与 ORS 差在哪
      我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。
      默认情况下,RS的值是 。下面通过实例来理解下RS。 
    echo '1a2a3a4a5' | awk '{print $1}'
    1a2a3a4a5
    echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'
    1
    2
    3
    4
    5
    我们可以看到,在更改了RS的值后,awk定义的行已经不是我们实际意义中的行了。
      上面RS固定的字符串,RS也可以定义为正则表达式。 
    echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'
    1 [a-z]+ ab
    2 [a-z]+ bc
    3 [a-z]+ cd
    4 [a-z]+ de
    5 [a-z]+ 
    当我们将RS设置为正则表达式的时候,RT这个变量就有作用了,RS的值始终为我们设定的正则,RT的值则是这个正则实际匹配到的内容。
    如果RS被设置为空,那么awk会将连续的空行作为行分隔符,与RS设置成" +"有什么区别???
      1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾 去掉
      2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)
      3、影响FS变量
      总结下RS的3种情况:
      1) 非空字符串
         以固定字符串作为行分隔符,同时设置变量RT为固定字符串
      2) 正则表达式
         以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
      3) 空字符
         以连续的空行作为行分隔符,如果FS为单个字符,会将 强制加入到FS变量中
      理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
      更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
      ORS的值只能设定为字符串,默认情况下,ORS的值是  
    seq 5 | awk '{print $0}'
    1
    2
    3
    4
    5
    seq 5 | awk 'BEGIN{ORS="a"}{print $0}'
    1a2a3a4a5a
    我们平常用的 print $0 等价于 printf $0 ORS

    二、FS 与 OFS 差在哪
      RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。
      设置变量 FS 与使用 -F 参数是一样的。 
    echo '1,2' | awk -F , '{print $1}'
    1
    echo '1,2' | awk 'BEGIN{FS=","}{print $1}'
    1
    与 RS 类似,FS 同样可以设置为正则表达式 
    echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'
    1 2 5
    FS 有1个特例,就是将FS设置为一个空格,FS=" " ,这也是FS的默认值 
    1.In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.
    此时,awk会将连续的 空格 或 制表符( ) 或 换行符( ) 作为列的分隔符
      那么,FS=" " 与 FS="[ ]+" 有区别么???
      答案是肯定的 
    echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'
    1
    echo ' 1 2' | awk 'BEGIN{FS="[ ]+"}{print $1}'

    当FS=" "时,awk会自动去掉行首和行尾的 空格 或 制表符( ) 或 换行符( ),但FS="[ ]+"是不会的
      同样,FS也可以设置为空 
    echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'
    1 2
    当FS被设置为空字符串的时候,awk会将一行记录的每个字符做为单独的一列
      类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS
      例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列 
    echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'
    123 45 6789
    echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 3"}{print $1,$2,$3}'
    123 45 678
     echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 5"}{print $1,$2,$3}'
    123 45 6789
    如果定义的长度小于实际的长度,awk会截断,如果大于实际长度,则以实际长度为准。
      总结下FS的4种情况:
      1) 非空字符串
         以固定字符串作为列分隔符
      2) 正则表达式
         以正则表达式作为列分隔符
      3) 单个空格
         以连续的 空格 或 制表符( ) 或 换行符( )作为列分隔符
      4) 空字符
         以每个字符做为单独的一列
      接下来我们来看看上节提到的问题:
      当 RS="" 时,会将 强制加入到FS变量中 
    cat urfile
    1
    a
     
    2
    a
     
     
    3
    awk -v RS="" '{print "#" $0 "#"}' urfile
    #1
    a#
    #2
    a#
    #3#
    awk -F "b" -v RS="" '{print $1}' urfile
    1
    2
    3
    awk -F "c" -v RS="" '{print $1}' urfile
    1
    2
    3
    awk -F "c" -v RS=" +" '{print "#" $1 "#"}' urfile
    #1
    a#
    #2
    a#
    #3
    #
    如果FS为单个字符, 始终存在在 FS 中,而 RS=" +" 则不会。
      了解的 FS ,我们来看看 OFS ,FS是awk读入记录时的列分隔符,OFS则是awk输出时的列分隔符。
      我们平时使用的 print $1,$2 等价于 print $1 OFS $2 
    echo '1 2' | awk -v OFS="|" '{print $1,$2}'
    1|2
    echo '1 2' | awk -v OFS="|" '{print $1 OFS $2}'
    1|2
    如果一行记录有很多列,同时想改变输出的分隔符,print $1,$2,$3 ... 启不是很麻烦?
      当然有简单的方法: 
    echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'
    1 2 3 4 5
     echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'
    1|2|3|4|5
    echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'
    1|2|3|4|5

    为了使OFS的设置生效,需要改变 $0 ,这里我们是对 awk 撒了个小谎
      $1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效
      在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”
      这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了
      同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了
      因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”

    三、0 与 "0" 差在哪
      我们先来看一个例子: 
    awk 'BEGIN{if(0) print "true";else print "false"}'
    false
    awk 'BEGIN{if("0") print "true";else print "false"}'
    true
    为什么同样是 0 ,结果却不一样?
      其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。
      以下3种情况是“假”,其他情况都为“真”
      1) 数字 0
      2) 空字符串
      3) 未定义的值 
     awk 'BEGIN{a=0;if(a) print "true";else print "false"}'
    false
    awk 'BEGIN{a="";if(a) print "true";else print "false"}'
    false
    awk 'BEGIN{if(a) print "true";else print "false"}'
    false

    awk如何去重? 
    1.awk '! a[$0] ++'

    在解释之前,我们先要了解awk的一个特性:
      awk 会根据语境来给未定义的变量赋初始值 
    awk 'BEGIN{print a "" 1}'
    1
     awk 'BEGIN{print a + 1}'
    1

    对于未定义的变量,如果要进行字符串操作,会被赋成空字符串 ""
      如果要进行数学运算,会被赋成数字 0
      现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0
      对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0
      也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0
      ! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0
      对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 1、2、3 。。。
      而 ! 1  ! 2  ! 3 ... 都为假,不会打印。
      下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行: 
    seq 10 | awk 'i=!i'
    1
    3
    5
    7
    9
     
  • 相关阅读:
    python+selenium环境搭建以及遇到的坑
    (二)第一个测试用例
    (一)TestNG介绍与安装
    Appium详解server capabilities
    Mac安装MySQL数据库
    POI 设置单元格样式
    JAVA_HOME环境变量失效的解决办法
    svn linux 命令
    StringUtils工具类的常用方法
    ArrayUtils 方法
  • 原文地址:https://www.cnblogs.com/xuaijun/p/7902757.html
Copyright © 2020-2023  润新知