710

710

文本处理

　　文件查看命令： cat，nl，tac，rev 

　　cat [OPTION]... [FILE]...

　　　　　　-E：显示行结束符$

　　　　　　-n：对显示出的每一行进行编号

　　　　　　-A：显示所有控制符

　　　　　　-b：非空行编号

　　　　　　-s：压缩连续的空行成一行 

　　分页查看文件内容：more,less

　　more：分页查看文件

　　　　more [OPTIONS...] FILE...

　　　　　　　　-d: 显示翻页及退出提示 

　　less：一页一页地查看文件或STDIN输出查看时有用的命令包括：

　　　　/文本搜索文本 n/N 跳到下一个或上一个匹配 less 命令是man命令使用的分页器

　　显示文本前或后行内容

　　head [OPTION]... [FILE]...

　　　　　　-c # 指定获取前#字节

　　　　　　-n # 指定获取前#行

　　　　　　-# 指定行数 

　　tail [OPTION]... [FILE]...

　　　　　　-c # 指定获取后#字节

　　　　　　-n # 指定获取后#行

　　　　　　-# 同上

　　　　　　-f 跟踪显示文件fd新追加的内容,常用日志监控,相当于 --follow=descriptor

　　　　　　-F 跟踪文件名，相当于--follow=name --retry 

　　tailf 类似tail –f，当文件不增长时并不访问文件

　　按列抽取文本cut和合并文件paste

　　　cut [OPTION]... [FILE]...

　　　　　　-d DELIMITER: 指明分隔符，默认tab

　　　　　　-f FILEDS: #: 第#个字段

　　　　　　　　　　#,#[,#]：离散的多个字段，例如1,3,6

　　　　　　　　　　　　#-#：连续的多个字段, 例如1-6

　　　　　　　　　　　　混合使用：1-3,7 -

　　　　　　　　　　　　c 按字符切割

　　　　　　　　　　--output-delimiter=STRING指定输出分隔符　

　　cut和paste

　　显示文件或STDIN数据的指定列

　　　　　　cut -d: -f1 /etc/passwd

　　　　　　cat /etc/passwd | cut -d: -f7

　　　　　　cut -c2-5 /usr/share/dict/words 

　　 paste 合并两个文件同行号的列到一行

　　　　　　paste [OPTION]... [FILE]...

　　　　　　　　-d 分隔符：指定分隔符，默认用TAB

　　　　　　　　-s : 所有行合成一行显示

　　收集文本统计数据wc

　　　常用选项

　　　　　　 -l 只计数行数

　　　　　　 -w 只计数单词总数

　　　　　　 -c 只计数字节总数

　　　　　　 -m 只计数字符总数

　　　　　　 -L 显示文件中最长行的长度

　　文本排序sort

　　把整理过的文本显示在STDOUT，不改变原始文件 sort [options] file(s) 

　　　　常用选项

　　　　　　-r 执行反方向（由上至下）整理

　　　　　　-R 随机排序

　　　　　　-n 执行按数字大小整理

　　　　　　-f 选项忽略（fold）字符串中的字符大小写

　　　　　　-u 选项（独特，unique）删除输出中的重复行

　　　　　　-t c 选项使用c做为字段界定符

　　　　　　-k X 选项按照使用c字符分隔的X列来整理能够使用多次

　　uniq

　　uniq命令：从输入中删除前后相接的重复的行 

　　　　uniq [OPTION]... [FILE]...

　　　　　　-c: 显示每行重复出现的次数

　　　　　　-d: 仅显示重复过的行

　　　　　　-u: 仅显示不曾重复的行

　　　　　　注：连续且完全相同方为重复 

　　　　常和sort 命令一起配合使用：sort userlist.txt | uniq -c

　　grep

　　　　grep: Global search REgular expression and Print out the line

　　　　　　作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行

　　　　　　模式：由正则表达式字符及文本字符所编写的过滤条件

　　　　grep [OPTIONS] PATTERN [FILE...]

　　　　 --color=auto: 对匹配到的文本着色显示 

　　　　-m # 匹配#次后停止 

　　　　-v 显示不被pattern匹配到的行 

　　　　-i 忽略字符大小写 

　　　　-n 显示匹配的行号 

　　　　-c 统计匹配的行数 

　　　　-o 仅显示匹配到的字符串 

　　　　-q 静默模式，不输出任何信息 

　　　　-A # after, 后#行 

　　　　-B # before, 前#行 

　　　　-C # context, 前后各#行 

　　　　-e 实现多个选项间的逻辑or关系 grep –e ‘cat ’ -e ‘dog’ file 

　　　　-w 匹配整个单词 

　　　　-E 使用ERE 

　　　　-F 相当于fgrep，不支持正则表达式 

　　　　-f file 根据模式文件处理

　　正则表达式

　　分两类：基本正则表达式：BRE 扩展正则表达式：ERE
　　　基本正则表达式元字符

　　　　　　字符匹配:

　　　　　　　　.匹配任意单个字符

　　　　　　　　[]匹配指定范围内的任意单个字符，示例：[wang]   [0-9]    [a-z]   [a-zA-Z] 　　　　　　　　　　　　

　　　　　　　　[^] 匹配指定范围外的任意单个字符

　　　　　　　　[:alnum:] 字母和数字

　　　　　　　　[z:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z

　　　　　　　　[:lower:] 小写字母

　　　　　　　　[:upper:] 大写字母

　　　　　　　　[:blank:] 空白字符（空格和制表符）

　　　　　　　　[:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）

　　　　　　　　[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）

　　　　　　　　[:digit:] 十进制数字

　　　　　　　　[:xdigit:]十六进制数字

　　　　　　　　[:graph:] 可打印的非空白字符

　　　　　　　　[:print:] 可打印字符

　　　　　　　　[:punct:] 标点符号

　　匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

　　　　* 匹配前面的字符任意次，包括0次

　　　　贪婪模式：尽可能长的匹配

　　　　.* 任意长度的任意字符

　　　　\? 匹配其前面的字符0或1次

　　　　\+ 匹配其前面的字符至少1次

　　　　\{n\} 匹配前面的字符n次

　　　　\{m,n\} 匹配前面的字符至少m次，至多n次

　　　　\{,n\} 匹配前面的字符至多n次

　　　　\{n,\} 匹配前面的字符至少n次
　　位置锚定：定位出现的位置

　　　　^ 行首锚定，用于模式的最左侧

　　　　$ 行尾锚定，用于模式的最右侧

　　　　^PATTERN$ 用于模式匹配整行

　　　　^$ 空行

　　　　^[[:space:]]*$ 空白行

　　　　\< 或 \b 词首锚定，用于单词模式的左侧

　　　　\> 或 \b 词尾锚定，用于单词模式的右侧

　　　　\<PATTERN\> 匹配整个单词

　　

egrep及扩展的正则表达式

　　egrep = grep -E 

　　　　egrep [OPTIONS] PATTERN [FILE...] 

　　　　扩展正则表达式的元字符： 

　　　　　　字符匹配： . 任意单个字符 [] 指定范围的字符 [^] 不在指定范围的字符

　　　　　　次数匹配： * 匹配前面字符任意次 ? 0或1次 + 1次或多次 {m} 匹配m次 {m,n} 至少m，至多n次

　　　　位置锚定： ^ 行首 $ 行尾 \<, \b 语首 \>, \b 语尾 

　　　　分组：     ()    后向引用：\1, \2, ... 或者： a|b a或b C|cat C或cat (C|c)at Cat或cat
相关阅读:
nvelocity的Foreach 中使用DataTable数据
 好的博客链接收集
 Uber Shaders
DOF
纹理过滤模式中的Bilinear、Trilinear以及Anistropic Filtering
开通博客了
 代码中的隐式转换问题
 使用C++/CLI封装引用BOOST库的DLL造成的问题
 在Free Radius的PAP认证过程中使用MD5密码
 （转）测试CPU是大端Big endian 还是小端Little Endian的C代码
原文地址：https://www.cnblogs.com/dengkui/p/11003819.html

文本处理