• linux文本处理三剑客之 grep


    文本处理无非是对文本内容做查看、修改等操作。Linux三剑客: grep、sed 和 awk 命令。

    处理文本内容,用 Vim 编辑器不是很好吗?Vim 允许我们使用键盘、鼠标来对文本内容进行交互性地修改,但在某些场景中,我们可能需要实现对文本内容做自动化的处理,而不是手工处理。

    很多时候,我们并不需要列出文件的全部内容,而是从文件中找到包含指定信息的那些行,要实现这个目的,可以使用 grep 命令。

    grep 命令的由来可以追溯到 UNIX 诞生的早期,在 UNIX 系统中,搜索的模式(patterns)被称为正则表达式(regular expressions),为了要彻底搜索一个文件,有的用户在要搜索的字符串前加上前缀 global(全面的),一旦找到相匹配的内容,用户就像将其输出(print)到屏幕上,而将这一系列的操作整合到一起就是 global regular expressions print,而这也就是 grep 命令的全称。

    grep命令能够在一个或多个文件中,搜索某一特定的字符模式(也就是正则表达式),此模式可以是单一的字符、字符串、单词或句子。

    正则表达式是描述一组字符串的一个模式,正则表达式的构成模仿了数学表达式,通过使用操作符将较小的表达式组合成一个新的表达式。正则表达式可以是一些纯文本文字,也可以是用来产生模式的一些特殊字符。为了进一步定义一个搜索模式,grep 命令支持如表 1 所示的这几种正则表达式的元字符(也就是通配符)。

    通配符功能
    c* 将匹配 0 个(即空白)或多个字符 c(c 为任一字符)。
    . 将匹配任何一个字符,且只能是一个字符。
    [xyz] 匹配方括号中的任意一个字符。
    [^xyz] 匹配除方括号中字符外的所有字符。
    ^ 锁定行的开头。
    $ 锁定行的结尾。

    在基本正则表达式中,如通配符 *、+、{、|、( 和 )等,已经失去了它们原本的含义,而若要恢复它们原本的含义,则要在之前添加反斜杠 ,如 *、+、{、|、( 和 )。

    grep 命令是用来在每一个文件或中(或特定输出上)搜索特定的模式,当使用 grep 时,包含指定字符模式的每一行内容,都会被打印(显示)到屏幕上,但是使用 grep 命令并不改变文件中的内容。

    grep 命令的基本格式如下:grep [选项] 模式 文件名

    这里的模式,要么是字符(串),要么是正则表达式。

    选项含义
    -c 仅列出文件中包含模式的行数。
    -i 忽略模式中的字母大小写。
    -l 列出带有匹配行的文件名。
    -n 在每一行的最前面列出行号。
    -v 列出没有匹配模式的行。
    -w 把表达式当做一个完整的单字符来搜寻,忽略那些部分匹配的行。

    注意,如果是搜索多个文件,grep 命令的搜索结果只显示文件中发现匹配模式的文件名;而如果搜索单个文件,grep 命令的结果将显示每一个包含匹配模式的行。

    例如,有一份 emp.data 员工清单,现在要搜索此文件,找出职位为 CLERK 的所有员工,则执行命令如下:

    grep CLERK emp.data
    #忽略输出内容

    如果只想知道职位为 CLERK 的员工的人数,可以使用“-c”选项,执行命令如下:

    grep -c CLERK emp.data
    #忽略输出内容
  • 相关阅读:
    串口RS232和485通信的波形分析
    Ubuntu添加中文输入法
    虚拟机桥接模式联网方法,Xshell的连接与使用
    waitpid 函数详解
    linux for循环 fork() 产生子进程
    【LeetCode解题总结】动态规划篇
    【LeetCode解题总结】递归篇
    【LeetCode解题总结】排序篇
    【LeetCode解题总结】树/图篇
    【LeetCode解题总结】栈/队列篇
  • 原文地址:https://www.cnblogs.com/pacino12134/p/11483077.html
Copyright © 2020-2023  润新知