• 20220823 11. 正则表达式与文件格式化处理


    11.1 开始之前:什么是正则表达式

    什么是正则表达式

    正则表达式 (Regular Expression, RE, 或称为常规表达式)是通过一些特殊字符的排列,用 以“搜寻/取代/删除”一列或多列文字字串, 简单的说,正则表达式就是用在字串的处理上面的 一项“表示式”。

    正则表达式并不是一个工具程序, 而是一个字串处理的标准依据,如果您想 要以正则表达式的方式处理字串,就得要使用支持正则表达式的工具程序才行, 这类的工具 程序很多,例如 vi, sed, awk 等等。

    延伸的正则表达式

    正则表达式的字串表示方式依照不同的严谨度而分为: 基础正则表达式与延伸正则表达式。延伸型正则表达式除了简单的一组字串处理之外,还可 以作群组的字串处理, 例如进行搜寻 VBird 或 netman 或 lman 的搜寻,注意,是“或(or)”而不是“和(and)”的处理

    正则表达式与万用字符是完全不一样的东西!

    “万用字符 (wildcard) 代表的是 bash 操作接口的一个功能”,但正则表达式则 是一种字串处理的表示方式!

    11.2 基础正则表达式

    11.2.1 语系对正则表达式的影响

    在英文大小写的编码顺序中,zh_TW.big5 及 C 这两种语系的输出结果分别如下:

    • LANG=C 时:0 1 2 3 4 ... A B C D ... Z a b c d ...z

    • LANG=zh_TW 时:0 1 2 3 4 ... a A b B c C d D ... z Z

    如果你想要 撷取大写字符而使用 [A-Z] 时, 会发现 LANG=C 确实可以仅捉到大写字符 (因为是连续的) ,但是如果 LANG=zh_TW.big5 时,就会发现到, 连同小写的 b-z 也会被撷取出来!因为就 编码的顺序来看, big5 语系可以撷取到“ A b B c C ... z Z ”这一堆字符哩! 所以,使用正则表 达式时,需要特别留意当时环境的语系为何, 否则可能会发现与别人不相同的撷取结果喔!

    由于一般我们在练习正则表达式时,使用的是相容于 POSIX 的标准,因此就使用“ C ”这个语 系

    LANG=C是最早最简单的C语言环境(标准ASCII码)

    特殊符号 代表意义
    [:alnum:] 代表英文大小写字符及数字,亦即 0-9, A-Z, a-z
    [:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
    [:blank:] 代表空白键与 [Tab] 按键两者
    [:cntrl:] 代表键盘上面的控制按键,亦即包括 CR, LF, Tab, Del.. 等等
    [:digit:] 代表数字而已,亦即 0-9
    [:graph:] 除了空白字符 (空白键与 [Tab] 按键) 外的其他所有按键
    [:lower:] 代表小写字符,亦即 a-z
    [:print:] 代表任何可以被打印出来的字符
    [:punct:] 代表标点符号 (punctuation symbol),亦即:" ' ? ! ; : # $...
    [:upper:] 代表大写字符,亦即 A-Z
    [:space:] 任何会产生空白的字符,包括空白键, [Tab], CR 等等
    [:xdigit:] 代表 16 进位的数字类型,因此包括: 0-9, A-F, a-f 的数字与字符

    11.2.2 grep 的一些进阶选项

    基础的 grep 用法

    grep [-acinv] [--color=auto] '搜寻字串' filename 
    
    选项与参数: 
    -a :将 binary 文件以 text 文件的方式搜寻数据 
    -c :计算找到 '搜寻字串' 的次数 
    -i :忽略大小写的不同,所以大小写视为相同 
    -n :顺便输出行号 
    -v :反向选择,亦即显示出没有 '搜寻字串' 内容的那一行! 
    --color=auto :可以将找到的关键字部分加上颜色的显示喔!
    

    grep 的进阶用法

    grep [-A] [-B] [--color=auto] '搜寻字串' filename 
    
    选项与参数: 
    -A :后面可加数字,为 after 的意思,除了列出该行外,后续的 n 行也列出来; 
    -B :后面可加数字,为 befer 的意思,除了列出该行外,前面的 n 行也列出来; 
    --color=auto :可将正确的那个撷取数据列出颜色
    
    # 范例一:用 dmesg 列出核心讯息,再以 grep 找出内含 qxl 那行 
    dmesg | grep 'qxl'
    
    # 范例二:承上题,要将捉到的关键字显色,且加上行号来表示: 
    dmesg | grep -n --color=auto 'qxl'
    
    
    # 范例三:承上题,在关键字所在行的前两行与后三行也一起捉出来显示 
    dmesg | grep -n -A3 -B2 --color=auto 'qxl'
    

    11.2.3 基础正则表达式练习

    下面的练习大前提是:

    • 语系已经使用“ export LANG=C; export LC_ALL=C ”的设置值;

    • grep 已经使用 alias 设置成为“ grep --color=auto ”

    例题一、搜寻特定字串

    # 例题一、搜寻特定字串
    # 从文件当中取得 the 这个特定字串
    grep -n 'the' regular_express.txt
    
    # 反向选择
    grep -vn 'the' regular_express.txt
    
    # 不论大小写
    grep -in 'the' regular_express.txt
    

    例题二、利用中括号 [] 来搜寻集合字符

    # 例题二、利用中括号 [] 来搜寻集合字符
    # 搜寻 test 或 tast 这两个单字
    grep -n 't[ae]st' regular_express.txt
    
    
    # 搜寻到有 oo 的字符
    grep -n 'oo' regular_express.txt
    
    # 不想要 oo 前面有 g
    grep -n '[^g]oo' regular_express.txt
    
    # oo 前面不想要有小写字符
    grep -n '[^a-z]oo' regular_express.txt
    
    # 取得有数字的那一行
    grep -n '[0-9]' regular_express.txt
    

    考虑到语系对于编码顺序的影响,因此除了连续编码使用减号“ - ”之外, 你也可以使用 如下的方法来取得前面两个测试的结果

    grep -n '[^[:lower:]]oo' regular_express.txt
    
    grep -n '[[:digit:]]' regular_express.txt
    

    例题三、行首与行尾字符 ^ $

    # the 只在行首
    grep -n '^the' regular_express.txt
    
    # 开头是 小写字符
    grep -n '^[a-z]' regular_express.txt
    grep -n '^[[:lower:]]' regular_express.txt
    
    # 开头不是英文字母
    grep -n '^[^a-zA-Z]' regular_express.txt
    grep -n '^[^[:alpha:]]' regular_express.txt
    

    ^ 符号,在字符集合符号(括号[])之内与之外是不同的! 在 [] 内代表“反 向选择”,在 [] 之外则代表定位在行首的意义

    # 行尾结束为小数点 (.)
    grep -n '\.$' regular_express.txt
    

    因为小数点具有其他意义,所以必须要使用跳脱字符(\)来加 以解除其特殊意义

    # 空白行
    grep -n '^$' regular_express.txt
    
    # 排除空白行,排除行首是 # 的行
    grep -v '^$' /etc/rsyslog.conf | grep -v '^#'
    

    例题四、任意一个字符 . 与重复字符 *

    . (小数点):代表“一定有一个任意字符”的意思;

    *(星星号):代表“重复前一个字符, 0 到无穷多次”的意思,为组合形态

    # 找出 g??d 的字串,亦即共有四个字符, 起头是 g 而结束是 d
    grep -n 'g..d' regular_express.txt
    
    # 至少两个 o 以上的字串
    grep -n 'ooo*' regular_express.txt
    
    # 字串开头与结尾都是 g,但是两个 g 之间仅能存在至少一个 o ,亦即是 gog, goog, gooog.
    grep -n 'goo*g' regular_express.txt
    
    # 找出 g 开头与 g 结尾的字串
    grep -n 'g.*g' regular_express.txt
    
    # 任意数字
    grep -n '[0-9][0-9]*' regular_express.txt
    grep -n '[0-9]' regular_express.txt
    

    例题五、限定连续 RE 字符范围 {}

    因为 {} 的符号在 shell 是有 特殊意义的,因此, 我们必须要使用跳脱字符 \ 来让他失去特殊意义才行

    # 找到两个 o 的字串
    grep -n 'o\{2\}' regular_express.txt
    
    # 找出 g 后面接 2 到 5 个 o ,然后再接一个 g 的字串
    grep -n 'go\{2,5\}g' regular_express.txt
    
    # 2 个 o 以上
    grep -n 'go\{2,\}g' regular_express.txt
    

    11.2.4 基础正则表达式字符汇整 (characters)

    RE 字符 意义 范例 范例指令
    ^word 待搜寻的字串(word)在行首! 搜寻行首为 # 开始的那一行,并 列出行号 grep -n '^#' regular_express.txt
    word$ | 待搜寻的字串(word)在行尾! | 将行尾为 ! 的那一行打印出来, 并列出行号 | grep -n '!$' regular_express.txt
    . 代表“一定有一个任意字符”的字符! 搜寻的字串可以是 (eve) (eae) (eee) (e e), 但不能仅有 (ee) !亦即 e 与 e 中间“一定”仅有 一个字符,而空白字符也是字符! grep -n 'e.e' regular_express.txt
    \ 跳脱字符,将特殊符号的特殊意义去除! 搜寻含有单引号 ' 的那一 行! grep -n ' regular_express.txt
    * 重复零个到无穷多个的前一个 RE 字符 找出含有 (es) (ess) (esss) 等等的字串,注意,因为 可以是 0 个,所以 es 也是符合带搜寻字 串。另外,因为 为重复“前一个 RE 字符”的符号, 因此,在 之前必须要紧接着 一个 RE 字符喔!例如任意字符则为 “.” ! grep -n 'ess*' regular_express.txt
    [list] 字符集合的 RE 字符,里面列出想要撷取的字符! 范例:搜寻含有 (gl) 或 (gd) 的那一行,需要特别留意的是,在 [] 当中“谨代表一个待搜寻 的字符”, 例如“ a[afl]y ”代表搜寻的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思! grep -n 'g[ld]' regular_express.txt
    [n1- n2] 字符集合的 RE 字符,里面列出想要撷取的字符范围!范例:搜寻含有 任意数字的那一行!需特别留意,在字符集合 [] 中的减号 - 是有特殊意义的, 他代表两个字符之间的所有连续字符!但这个连续与否与 ASCII 编码有关,因 此,你的编码需要设置正确(在 bash 当中,需要确定 LANG 与 LANGUAGE 的变量是否正确!) 所有大写字符则为 [A-Z] grep -n '[A-Z]' regular_express.txt
    [^list] 字符集合的 RE 字符,里面列出不要的字串或范围! 搜寻的字串 可以是 (oog) (ood) 但不能是 (oot) ,那个 ^ 在 [] 内时,代表的意义 是“反向选择”的意思。 例如,我不要大写字符,则为 [^A-Z]。但是,需要特别 注意的是,如果以 grep -n [^A-Z] regular_express.txt 来搜寻,却发现该文件内 的所有行都被列出,为什么?因为这个 [^A-Z] 是“非大写字符”的意思, 因为每 一行均有非大写字符,例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小 写字 grep -n 'oo[^t]' regular_express.txt
    {n,m} 连续 n 到 m 个的“前一个 RE 字符”
    若为 {n} 则是连续 n 个的前一 个 RE 字符
    若是 {n,} 则是连续 n 个以上的前一个 RE 字符!
    在 g 与 g 之间有 2 个到 3 个的 o 存在的字串,亦即 (goog)(gooog) grep -n 'go{2,3}g' regular_express.txt

    不支持正则表达式的 ls 这个工具

    ls -l * 代表的是任意文件名的文 件

    ls -l a* 代表的是以 a 为开头的任何文件名的文件

    # 以 a 为开头的文件
    ls | grep -n '^a.*'
    
    # 找出 /etc/ 下面文件类型为链接文件属性的文件名
    ls -l /etc | grep '^l'
    

    11.2.5 sed 工具

    sed 本身也是一个管线命令,可以分析 standard input 的

    sed 还可以将数据进行取代、删除、新增、撷取特定行等

    sed [-nefr] [动作] 
    
    选项与参数: 
    -n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到屏幕上。 但如果加上 -n 参数后,则只有经过 sed 特殊处理的那一行(或者动作)才会被列出来。 
    -e :直接在命令行界面上进行 sed 的动作编辑; 
    -f :直接将 sed 的动作写在一个文件内, -f filename 则可以执行 filename 内的 sed 动作; 
    -r :sed 的动作支持的是延伸型正则表达式的语法。(默认是基础正则表达式语法) 
    -i :直接修改读取的文件内容,而不是由屏幕输出。 
    
    动作说明: [n1[,n2]]function 
    n1, n2 :不见得会存在,一般代表“选择进行动作的行数”,举例来说,如果我的动作 是需要在 10 到 20 行之间进行的,则“ 10,20[动作行为] ” 
    function 有下面这些咚咚: 
        a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~ 
        c :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行! 
        d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚; 
        i :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行); 
        p :打印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~ 
        s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正则表达式! 例如 1,20s/old/new/g 就是啦!
    

    以行为单位的新增/删除功能

    # 范例一:将 /etc/passwd 的内容列出并且打印行号,同时,请将第 2~5 行删除!
    nl /etc/passwd | sed '2,5d'
    
    # 范例二:承上题,在第二行后(亦即是加在第三行)加上“drink tea?”字样!
    nl /etc/passwd | sed '2a drink tea'
    
    # 范例三:在第二行后面加入两行字,例如“AA”与“BB”
    nl /etc/passwd | sed '2a AA\
    > BB'
    

    在多行新增的情况下, \ 是一定要的

    以行为单位的取代与显示功能

    # 范例四:我想将第2-5行的内容取代成为“No 2-5 number”呢? 
    nl /etc/passwd | sed '2,5c No 2-5 number'
    
    # 范例五:仅列出 /etc/passwd 文件内的第 5-7 行 
    nl /etc/passwd | sed -n '5,7p'
    # -n 代表的是“安静模式”
    

    部分数据的搜寻并取代的功能

    sed 's/要被取代的字串/新的字串/g'
    

    示例:取得 IP 数据

    # 步骤一:先观察原始讯息,利用 /sbin/ifconfig 查询 IP 为何?
    /sbin/ifconfig eth1
    
    # 步骤二:利用关键字配合 grep 撷取出关键的一行数据
    /sbin/ifconfig eth1 | grep 'inet '
    
    # 步骤三:将 IP 前面的部分予以删除
    /sbin/ifconfig eth1 | grep 'inet ' | sed 's/^.*inet //g'
    
    # 步骤四:将 IP 后面的部分予以删除
    /sbin/ifconfig eth1 | grep 'inet ' | sed 's/^.*inet //g' | sed 's/ *netmask.*$//g'
    

    示例:只要 MAN 存在的那几行数据, 但是含有 # 在内的注解我不想要,而且空白行我也不要

    # 步骤一:先使用 grep 将关键字 MAN 所在行取出来 
    cat /etc/man_db.conf | grep 'MAN'
    
    # 步骤二:删除掉注解之后的数据!
    cat /etc/man_db.conf | grep 'MAN' | sed 's/#.*$//g'
    
    # 步骤三:删除掉空白行
    cat /etc/man_db.conf | grep 'MAN'| sed 's/#.*$//g' | sed '/^$/d'
    

    直接修改文件内容(危险动作)

    # 范例六:利用 sed 将 regular_express.txt 内每一行结尾若为 . 则换成 !
    sed -i 's/\.$/\!/g' regular_express.txt
    
    # 范例七:利用 sed 直接在 regular_express.txt 最后一行加入“# This is a test”
    sed -i '$a # This is a test' regular_express.txt
    

    11.3 延伸正则表达式

    去除空白行与行首为 # 的 行列,基础正则表达式使用的是

    grep -v '^$' regular_express.txt | grep -v '^#'
    

    如果使用延伸型的正则表达式,我们可以简化为:

    egrep -v '^$|^#' regular_express.txt
    

    grep 默认仅支持基础正则表达式,如果要使用延伸型正则 表达式,你可以使用 grep -E , 不过更建议直接使用 egrep

    egrep 与 grep -E 是类似命令别名的关系

    RE 字符 意义 范例 范例指令
    + 重复“一个或一个以上”的前一个 RE 字符 搜寻 (god) (good) (goood)... 等等的字串。 那个 o+ 代表“一个以上的 o ” egrep -n 'go+d' regular_express.txt
    ? “零个或一个”的前一个 RE 字符 搜寻 (gd) (god) 这两个字串。 那个 o? 代表“空的或 1 个 o ” egrep -n 'go?d' regular_express.txt
    用或( or )的方式找出数个字串 搜寻 gd 或 good 或 dog 这两个字串,注 意,是“或”
    () 找出“群组”字串 搜寻 (glad) 或 (good) 这两个字串 egrep -n 'g(la|oo)d' regular_express.txt
    ()+ 多个重复群组的判别 将“AxyzxyzxyzxyzC”用 echo 叫出,然后再使 用如下的方法搜寻一下 echo 'AxyzxyzxyzxyzC' | egrep 'A(xyz)+C'

    ! 在正则表达式 当中并不是特殊字符, 所以,如果你想要查出来文件中含有 ! 与 > 的字行时

     grep -n '[!>]' regular_express.txt
    

    11.4 文件的格式化与相关处理

    11.4.1 格式化打印: printf

    printf '打印格式' 实际内容 
    
    选项与参数: 
    关于格式方面的几个特殊样式: 
        \a 警告声音输出 
        \b 倒退键(backspace) 
        \f 清除屏幕 (form feed) 
        \n 输出新的一行 
        \r 亦即 Enter 按键 
        \t 水平的 [tab] 按键 
        \v 垂直的 [tab] 按键 
        \xNN NN 为两位数的数字,可以转换数字成为字符。 
    
    关于 C 程序语言内,常见的变量格式 
        %ns 那个 n 是数字, s 代表 string ,亦即多少个字符; 
        %ni 那个 n 是数字, i 代表 integer ,亦即多少整数码数; 
        %N.nf 那个 n 与 N 都是数字, f 代表 floating (浮点),如果有小数码数, 假设我共要十个位数,但小数点有两位,即为 %10.2f 啰!
    
    # 范例一:将刚刚上头数据的文件 (printf.txt) 内容仅列出姓名与成绩:
    # (用 [tab] 分隔)
    printf '%s\t %s\t %s\t %s\t %s\t \n' $(cat printf.txt)
    

    printf 并不是管线命令

    # 范例二:将上述数据关于第二行以后,分别以字串、整数、小数点来显示:
    printf '%10s %5i %5i %5i %8.2f \n' $(cat printf.txt | grep -v Name)
    

    %10s 代表的是一个长度为 10 个字符的字串字段,%5i 代表的是长度为 5 个字符的数字 字段,至于那个 %8.2f 则代表长度为 8 个字符的具有小数点的字段,其中小数点有两个字符 宽度。

    %8.2f

    字符宽度: 12345678

    %8.2f 意义:00000.00

    全部的宽度仅有 8 个字符,整数部分占有 5 个字符,小数点本身 (.) 占一位, 小数点下的位数则有两位。

    # 范例三:列出 16 进位数值 45 代表的字符为何?
    printf '\x45\n'
    

    printf 的使用相当的广泛喔!包括等一下后面会提到的 awk 以及在 C 程序语言当中使用的屏 幕输出, 都是利用 printf

    11.4.2 awk:好用的数据处理工具

    awk 是“以行为一次处理的单位”, 而“以字段为最小的处理单位”。

    awk 相当的适合处理小型的数据数据处理

    awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
    

    awk 可以处理后 续接的文件,也可以读取来自前个指令的 standard output

    awk 主要是处 理“每一行的字段内的数据”,而默认的“字段的分隔符号为 "空白键" 或 "[tab]键" ”

    # 取出帐号与登陆者的 IP ,且帐号与 IP 之间以 [tab] 隔开
    last -n 5 | awk '{print $1 "\t" $3}'
    

    在 awk 的括号内,每一行的每个字段都是有变量名称 的,那就是 $1, $2... 等变量名称。$0 代表“一整行数据”的意思

    使用 awk 的时候,请先确认一下你的数据当中,如果是连续性的数据,请不要有空格 或 [tab] 在内,否则,就会像这个例子这样,会发生误判喔

    整个 awk 的处理流程是:

    1. 读入第一行,并将第一行的数据填入 $0, $1, $2.... 等变量当中;

    2. 依据 "条件类型" 的限制,判断是否需要进行后面的 "动作";

    3. 做完所有的动作与条件类型;

    4. 若还有后续的“行”的数据,则重复上面 1~3 的步骤,直到所有的数据都读完为止。

    变量名称 代表意义
    NF 每一行 ($0) 拥有的字段总数
    NR 目前 awk 所处理的是“第几行”数据
    FS 目前的分隔字符,默认是空白键
    last -n 5 | awk '{print $1 "\t lines: " NR "\t columns: " NF}'
    

    awk 的逻辑运算字符

    运算单元 代表意义
    > 大于
    < 小于
    >= 大于或等于
    <= 小于或等于
    == 等于
    != 不等于
    # 第三栏小于 10 以下的数据,并且仅列出帐号与第三栏
    cat /etc/passwd | awk '{FS=":"} $3 < 10 {print NR "\t " $1 "\t " $3}'
    

    怎么第一行没有正确的显示出来呢?这是因为我们读入第一行的时候,那些 变量 $1, $2... 默认还是以空白键为分隔的

    利用 BEGIN 这个关 键字正确显示第一行

    cat /etc/passwd | awk 'BEGIN {FS=":"} $3 < 10 {print $1 "\t " $3}' 
    

    除了 BEGIN 之外,我们还有 END

    例题:

    • 第一行只是说明,所以第一行不要进行加总 (NR==1 时处理);

    • 第二行以后就会有加总的情况出现 (NR>=2 以后处理)

    cat pay.txt | awk 'NR==1{printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total" } 
    NR>=2{total = $2 + $3 + $4 
    printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'
    

    awk 的输出格式当中,常常会以 printf 来辅助

    awk 的动作内 {} 也是支持 if (条件) 的,上例的另一种写法

    cat pay.txt | awk '{if(NR==1) printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total"} 
    NR>=2{total = $2 + $3 + $4 
    printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'
    

    11.4.3 文件比对工具

    diff

    diff 就是用在比对两个文件之间的差异的,并且是以行为单位来比对的!一般是用在 ASCII 纯 文本文件的比对上。

    不要用 diff 去比对两个完全不相干的文件

    由于是以行为比对的单位,因此 diff 通常是用在同一的文件(或软件) 的新旧版本差异上!

    diff 也可以比对整个目录下的差异

    diff [-bBi] from-file to-file 
    
    选项与参数: 
    from-file :一个文件名,作为原始比对文件的文件名; 
    to-file :一个文件名,作为目的比对文件的文件名; 
    注意,from-file 或 to-file 可以用 - 取代,那个 - 代表“Standard input”之意。 
    
    -b :忽略一行当中,仅有多个空白的差异(例如 "about me" 与 "about me" 视为相同 
    -B :忽略空白行的差异。 
    -i :忽略大小写的不同。
    
    # 创建测试文件
    mkdir -p /tmp/testpw    # 先创建测试用的目录 
    cd /tmp/testpw 
    cp /etc/passwd passwd.old 
    cat /etc/passwd | sed -e '4d' -e '6c no six line' > passwd.new 
    
    # 范例一:比对 passwd.old 与 passwd.new 的差异: 
    diff passwd.old passwd.new
    
    4d3
    < adm:x:3:4:adm:/var/adm:/sbin/nologin
    6c5
    < sync:x:5:0:sync:/sbin:/bin/sync
    ---
    > no six line
    
    # 将两个目录比对一下
    diff /etc/rc0.d/ /etc/rc5.d/
    

    cmp

    cmp 主要也是在比对两个文件,他 主要利用“字节”单位去比对

    cmp [-l] file1 file2 
    选项与参数: 
    -l :将所有的不同点的字节处都列出来。因为 cmp 默认仅会输出第一个发现的不同点。
    
    # 范例一:用 cmp 比较一下 passwd.old 及 passwd.new 
    cmp passwd.old passwd.new
    

    patch

    patch 这个指令与 diff 可是有密不可分的关系

    先比较新旧版本的差异,并将差异档制作成为补丁文件,再由补丁 文件更新旧文件

    # 范例一:以 /tmp/testpw 内的 passwd.old 与 passwd.new 制作补丁文件 
    diff -Naur passwd.old passwd.new &gt; passwd.patch 
    # 查看补丁文件
    cat passwd.patch
    
    patch -pN < patch_file      # 更新 
    patch -R -pN < patch_file   # 还原 
    
    选项与参数: 
    -p :后面可以接“取消几层目录”的意思。 
    -R :代表还原,将新的文件还原成原来旧的版本。
    
    # 范例二:将刚刚制作出来的 patch file 用来更新旧版数据 
    patch -p0 < passwd.patch
    
    # 范例三:恢复旧文件的内容 
    patch -R -p0 < passwd.patch
    

    为什么这里会使用 -p0 呢?因为我们在比对新旧版的数据时是在同一个目录下, 因此不需要 减去目录啦!如果是使用整体目录比对 (diff 旧目录 新目录) 时, 就得要依据创建 patch 文 件所在目录来进行目录的删减啰

    11.4.4 文件打印准备: pr

    pr /etc/man_db.conf
    

    pr 处理后所造成的标题中会有“文件时 间”、“文件文件名”及“页码”三大项目

  • 相关阅读:
    【题解】 bzoj2748 [HAOI2012]音量调节 (动态规划)
    【题解】 bzoj1190: [HNOI2007]梦幻岛宝珠 (动态规划)
    【题解】 bzoj1864: [Zjoi2006]三色二叉树 (动态规划)
    【题解】 [ZJOI2006]书架 (Splay)
    【题解】 [HNOI2004]宠物收养场(Splay)
    【题解】 [HNOI2002]营业额统计 (Splay)
    【题解】 [ZJOI2008] 泡泡堂(贪心/二分图/动态规划)
    【题解】 [SDOI2009] Elaxia的路线(最短路+拓扑排序)
    Aptana Studio 3 如何汉化,实现简体中文版
    js中获得当前时间是年份和月份
  • 原文地址:https://www.cnblogs.com/huangwenjie/p/16870691.html
Copyright © 2020-2023  润新知