• linux shell命令之wc/split及特殊字符


    [时间:2018-07] [状态:Open]
    [关键词:linux, wc, split, 通配符,转义符,linux命令]

    0 引言

    整理这篇文章的目的不是为了什么学习,仅仅是为了强化下记忆,以便下次可以直接使用不用重新搜索一次了。

    本文将主要整理linux shell下的命令,如果你不是在*nix系统下使用,建议无视本文。

    后面内容主要包含三部分:wc、split以及shell中的特殊字符。

    1 wc字符计数工具

    wc命令可输出给定文件或文件列表的行数、字节数、字符数、词数以及最大行宽度( line > word > char > byte)。具体语法如下:

    短选项 长选项 说明及描述
    -c --bytes 输出字节数,和ll命令的文件长度一致
    -m --chars 输出字符数,字符值得是可显示字符,比如多字节码中一个字符占用多个字节
    -w --words 输出词数,词是使用空格分隔的,所以这个统计可能不准确,不是传统意义上的词数
    -l --lines 输出行数
    -L --max-line-length 输出最大行宽度,使用字节为单位

    1.1 应用举例

    wc命令默认的输出如下:

    ~$ wc text
    0 2 17 text -----------依次为行数、词数和字节数

    字符数的输出如下:

    ~$ wc -m text
    9 text

    我的测试文件text中包含的内容如下:

    文件选项, 213 --------注意中间有空格

    此文件中只有一个空格,没有换行符,所以输出为上面结果。

    1.2 参考资料

    2 split文件分割命令

    我所遇到的问题是这样的:在日志分析时,如果日文件过大,比如说10G文件,通常多数编辑器打不开或者打开很慢,对大文件搜索支持非常弱。比如Notepad++就直接限制文件大小为500MB。为了快速分析日志,提高效率,还是尽量避免直接打开大约1GB的文件。所以,找找有没有可以完成文件分割的工具。

    最终找到splitsplit支持按照行数、字节大小分割文件,也可以指定分片的个数。
    split默认行为是将输入文件切分为1000行的分片。(所以文件比较大的时候慎重使用默认参数
    具体用法如下:

    短选项 长选项 说明及描述
    -l NUM --lines=NUM 分片文件每个包含NUM行,默认换行符ASCII LF
    -b size --bytes=size 分片文件每个长度为size字节
    -C size --line-bytes=size 以行为单元切分,但最终分片总长度不超过size字节
    -n chunks --number=chunks 按照给定chunks数目分片,格式支持如下
    n, k/n, l/n, l/k/n, r/n, r/k/n
    -t sep --separator=sep 指定换行符
    -u --unbuffered 无缓冲模式,速度略慢
    -a length --suffix-length=length 分片文件名称的后缀长度,默认为2
    -d from --numeric-suffixes=from 使用数字而非字母编号作为后缀,指定起始数字,默认为0
    -x from --numeric-suffixes=from 使用十六进制作为后缀

    2.1 示例

    按照行切分,切分之后文件最大1G

    split -C 1G input

    按照字节切分,限制切分长度为500MB

    split -b 500M input sdata

    指定分割数目切分,分割为三个文件

    split -n 3 input

    指定分割数目切分,不切分行的形式切分:

    split -n l/3 input

    指定分割数目切分,按照均匀分布形式切分:

    split -n r/3 input

    指定分割数目切分,输出第k(k=2)个分割内容到stdout:

    split -n 2/3 input

    2.2 参考资料

    2.3 延伸

    有分割命令,一定有合并命令,split和cat是对应的。有兴趣的可以看看linux-manual。

    3 shell中的特殊字符

    这里仅整理通配符和转义符,其他的建议查看Linux Shell 通配符、元字符、转义符使用实例介绍

    3.1 通配符

    shell中的通配符跟正则表达式有些类似,不过相对简单点。当shell在“参数”中遇到了通配符时,shell会将其当作路径或文件名去在磁盘上搜寻可能的匹配:若符合要求的匹配存在,则进行替换(路径扩展);否则就将该通配符作为一个普通字符传递给“命令”,然后再由命令进行处理。总之,通配符实际上就是一种shell实现的路径扩展功能。
    常见的通配符有:

    字符 含义 实例 描述
    * 匹配零或多个字符 a*b a与b之间可以有任意长度的任意字符,
    如aabcb, axyzb, a012b, ab
    ? 匹配任意一个字符 a?b a与b之间有且仅有一个字符,
    如aab, abb, acb, a0b
    [list] 匹配list中的任意单一字符 a[xyz]b a与b之间有且仅有一个字符, 但只能是x/y/z,
    如: axb, ayb, azb
    [!list] 匹配除list中的任意单一字符 a[!0-9]b a与b之间有且仅有一个字符, 但不能是阿拉伯数字, 如axb, aab, a-b
    [c1-c2] 匹配c1-c2中的任意单一字符 a[0-9]b a与b之间有且仅有一个字符,必须是字符0-9之间的,如a0b, a1b... a9b
    {s1,s2,...} 匹配s1或s2(或更多)其一字符串 a{abc,xyz,123}b a与b之间只能是abc或xyz或123这三个字符串之一

    3.2 转义符

    下面整理下转义字符,具体内容如下:

    字符 说明
    (反斜杠) 最常见的转义符,去除其后紧跟的元字符或通配符的特殊意义。
    ' '(单引号) 又叫硬转义,其内部所有的shell元字符、通配符都会将失效。注意,硬转义中不允许出现'(单引号)。
    ""(双引号) 又叫软转义,其内部只允许出现特定的shell元字符:$用于参数代换 `用于命令代替

    4 小结

    本文整理了shell命令wc以及split的用法,同时简单整理shell中的通配符和转义字符。仅为加强记忆,作为后续参考。

  • 相关阅读:
    UVALive 5966 Blade and Sword -- 搜索(中等题)
    UVA 12380 Glimmr in Distress --DFS
    【转】最长回文子串的O(n)的Manacher算法
    UVA 12382 Grid of Lamps --贪心+优先队列
    UVA 12377 Number Coding --DFS
    高斯消元模板
    图的全局最小割的Stoer-Wagner算法及例题
    逻辑运算符短路特性的应用
    为什么在 Java 中用 (low+high)>>>1 代替 (low+high)/2 或 (low+high)>>1 来计算平均值呢?好在哪里?
    数据库读写分离和数据一致性的冲突
  • 原文地址:https://www.cnblogs.com/tocy/p/linux-wc-split-special-char.html
Copyright © 2020-2023  润新知