linux文本处理工具-1

linux文本处理工具-1
文件内容： cat ,more,less

文件截取：head,tail

按列抽取：cut

排序和统计：sort,wc

-----------------------------------------------------

cat [OPTION]... [FILE]... //用于查看字符文件

-E：显示行结束符$

-n：对显示出的每一行进行编号

-A：显示所有控制符

-b：非空行编号

-s：压缩连续的空行成一行

------------------------------------------------------

分页查看

more：分页查看文件

more [OPTIONS...] FILE...

　　　　-d: 显示翻页及退出提示

less：一页一页地查看文件或STDIN输出

　　查看时有用的命令包括：

　　　　　　/文本搜索文本

　　　　　　n/N 跳到下一个或上一个匹配

　　less 命令是man命令使用的分页器

less
空格键滚动一页
回车键滚动一行
[pagedown]：向下翻动一页
[pageup]：向上翻动一页
还可以在冒号后面直接输入 /要搜索的关键字进行高亮显示，可以用 n 向前查找或者 N 向后查找。

------------------------------------------------------------------------

head 查看文件的前几行

head failename 默认显示文件的前十行 head -n11 passwd ==head -11 passwd //指定了查看文件的前几行

tail 查看文件的后几行

tail failename 默认显示文件的后十行 tail -n11 passwd == tail -11 passwd //指定了查看文件的后几行　　　　　　　　

　　tail -f catalina.out 追踪文件新增加的内容，常用于日志监控

---------------------------------------------------------------------------------------------

cut 按列抽取文本

cut [OPTION]... [FILE]...

　　　　　　-d DELIMITER: 指明分隔符，默认tab

　　　　　　-f FILEDS:

#: 第#个字段

#,#[,#]：离散的多个字段，例如1,3,6

#-#：连续的多个字段, 例如1-6

混合使用：1-3,7

　　　　　　　-c 按字符切割

实例：
cut -d: -f1,3 /etc/passwd //以：作为分隔符，取第1,3列
cat /etc/passwd | cut -d: -f1,3 显示结果是这种 root:0

ifconfig ens33 |head -2|tail -1| tr -s " "|cut -d" " -f1-3
ifconfig ens33 |head -2|tail -1| tr -s " "|cut -d" " -f1,2,3
cut -c34-36 // 截取第34到36个字符

------------------------------------------------------------------------------------------------------

wc 统计数据

　　计数单词总数、行总数、字节总数和字符总数

　　wc story.txt

　　39 237 1901 story.txt

　　行数字数字节数

常用选项
- - -l 只计数行数
  - -w 只计数单词总数
  - -c 只计数字节总数
  - -m 只计数字符总数
  - -L 显示文件中最长行的长度
--------------------------------------------------------------------------------------------------------------------

tr 转换和删除字符

　　　　　　tr ' ' + //把' '替换成+

　　　　　　tr -s ' ' //压缩空格

　　　　　　 tr -d '0-9' //删除字符

　　　　　　tr -dc '[0-9 ]' //除此之外的其他字符删除

　　　　　　tr -s " " % 压缩并替换

例子：

lscpu|grep "Model name"|cut -d: -f2|tr -s " "
lsblk|grep disk|tr -s " " |cut -d " " -f4
free -h|grep Mem|tr -s " " |cut -d" " -f2

-----------------------------------------------------------------------

文本排序sort 根据列来排序( 一个字符，一个字符比较)

常用选项
- -r 执行反方向（由上至下）整理
- -R 随机排序
- -n 执行按数字大小整理
- -f 选项忽略（fold）字符串中的字符大小写
- -u 选项（独特，unique）删除输出中的重复行
- -t c 选项使用c做为字段界定符
- -k X 选项按照使用c字符分隔的X列来整理能够使用多次
echo {1..10}|tr ' ' ' '|sort -rn //把一行数字转成一列数字，然后按照数字排序

例子
```
[root@centos7 ~]#df|grep "^/dev/sd"|tr -s " " %|cut -d% -f5|sort -nr
17
4
1

[root@centos7 ~]#df|grep "^/dev/sd"|grep -o  '[[:digit:]]+%'|tr -d %|sort -nr
17
4
1

[root@centos7 ~]#df|grep "^/dev/sd"|egrep -o  '[[:digit:]]+%'|tr -d %|sort -nr
17
4
1
```
[root@centos7 ~]#awk -F" +|:" '/^ESTAB/{print $(NF-2)}' ss.log |sort |uniq -c|sort -nr 44 127.0.0.1 10 113.234.28.244 8 124.64.18.135 6 45.62.217.224 6 210.21.36.228 6 106.38.128.110 5 116.227.232.42 4 59.46.213.114
```
对于统计并排序的需求，一般都是先排序直接sort，先把相同的放在一起，然后uniq计数，然后再来一个 sort -nr 排序 完事了
```
----------------------------------------------------------------------------------------------

uniq
uniq命令：从输入中删除前后相接的重复的行

　　　　uniq [OPTION]... [FILE]...
- - -c: 显示每行重复出现的次数
    
    -d: 仅显示重复过的行
    
    -u: 仅显示不曾重复的行
    
    注：连续且完全相同方为重复
　　　　常和sort 命令一起配合使用：

　　　　　　sort userlist.txt | uniq -c
```
[root@centos7 Packages]#ls *.rpm|sed -r 's/.*.(.*).rpm$/1/'|sort|uniq -c
   2258 i686
   3122 noarch
   4639 x86_64
```
--------------------------------------------------------------------------------

grep 文本过滤(模式：pattern)工具

grep 工作原理是逐行处理，每次读入一行，看是否符合正则表达式的条件，如果符合就默认整行打印出来

grep [OPTIONS] PATTERN [FILE...]
- - --color=auto: 对匹配到的文本着色显示
    
    -m # 匹配#次后停止
    
    -v 显示不被pattern匹配到的行
    
    -i 忽略字符大小写
    
    -n 显示匹配的行号
    
    -c 统计匹配的行数
    
    -o 仅显示匹配到的字符串把匹配到的字符一行一行的显示
    
    -q 静默模式，不输出任何信息
    
    -A # after, 后#行
    
    -B # before, 前#行
    
    -C # context, 前后各#行
    
    -e 实现多个选项间的逻辑or关系 grep –e ‘cat ’ -e ‘dog’ file
    
    -w 匹配整个单词
    
    -E 使用ERE
    
    -F 相当于fgrep，不支持正则表达式
    
    -f file 根据模式文件处理
nmap -v -sP 172.16.128.0/24 |grep -B1 up //匹配含有up行的前一行
|grep -e root -e bin 多个条件或者包含 //包含root或者包含 bin
ls |grep -v [abc] 　　//文件名中不包含a b c 三个字母的文件名
cat /etc/centos-release |grep -o "<[0-9]+>"|head -1 //匹配单个的数字
[root@centos7 ~]#grep -E "^([^:]+):.*<1$" /etc/passwd 分组 //扩展的正则表达式

grep 支持：BREs、EREs、PREs 正则表达式

grep 指令后不跟任何参数，则表示要使用 ”BREs“

grep 指令后跟 ”-E" 参数，则表示要使用 “EREs“

grep 指令后跟 “-P" 参数，则表示要使用 “PREs"

---------------------------------------------------------------------------------------------

正则表达式

字符匹配:
- . 匹配任意单个字符
- [ ] 匹配指定范围内的任意单个字符，示例：[wang] [0-9] [a-z] [a-zA-Z]
- [^] 匹配指定范围外的任意单个字符
- [:alnum:] 字母和数字
- [:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z
- [:lower:] 小写字母 [:upper:] 大写字母
- [:blank:] 空白字符（空格和制表符）
- [:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）
- [:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
- [:digit:] 十进制数字 [:xdigit:]十六进制数字
- [:graph:] 可打印的非空白字符
- [:print:] 可打印字符
- [:punct:] 标点符号
匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数
- * 匹配前面的字符任意次，包括0次贪婪模式：尽可能长的匹配
- .* 任意长度的任意字符
- ? 匹配其前面的字符0或1次
- + 匹配其前面的字符至少1次
- {n} 匹配前面的字符n次
- {m,n} 匹配前面的字符至少m次，至多n次
- {,n} 匹配前面的字符至多n次
- {n,} 匹配前面的字符至少n次
位置锚定：定位出现的位置
- ^ 行首锚定，用于模式的最左侧
- $ 行尾锚定，用于模式的最右侧
- ^PATTERN$ 用于模式匹配整行 ^$ 空行 ^[[:space:]]*$ 空白行
- < 或词首锚定，用于单词模式的左侧 (单词模式：数字字母下划线算单词的一部分，其他算单词的分界线)
- > 或词尾锚定，用于单词模式的右侧
- <PATTERN> 匹配整个单词
　　分组：() 将一个或多个字符捆绑在一起，当作一个整体处理，如：(root)+

　　或者：|

　　示例：a|b a或b C|cat C或cat (C|c)at Cat或cat

扩展正则表达式

　　egrep = grep -E

　　和基本正则表达式的区别就是，有一些地方不用加斜线()，

　　基本正则表达式需要用到斜线的地方: ( ) < > {} + ?

　　扩展的正则表达式： < >

ifconfig |grep -oE "(2[0-4][0-9]|25[0-5]|1[0-9][0-9]|[1-9]?[0-9])(.(2[0-4][0-9]|25[0-5]|1[0-9][0-9]|[1-9]?[0-9])){3}" //扩展正则表达式匹配ip

ifconfig |grep -Po "((2[0-4]d|25[0-5]|[01]?dd?).){3}(2[0-4]d|25[0-5]|[01]?dd?)" 　　//perl正则表达式匹配ip

vim %s#^(/download.*)/media/(.*)..*$#1/mp3/2.mp3 // vim 搜索替代分组
要有多努力才能对得起奔波的脚步和身上的期望
相关阅读:
Post请求data参数构造及巧用js脚本显示爬虫进度
 Javascript动态生成的页面信息爬取和openpyxl包FAQ小记
 Selenium实战脚本集—新浪微博发送QQ每日焦点
 linux下如何使用Mysql
selenium 点击页面链接测试
 功能测试工具Selenium IDE
JAVA + SELENIUM--环境搭建
 将Sublime Text 2搭建成一个好用的IDE
Appium（JAVA）Windows 7系统搭建及示例运行
 python 进行web测试
原文地址：https://www.cnblogs.com/hxfcodelife/p/11951610.html