sed文本处理知识点整理

参考资料：http://man.linuxde.net/sed 《鸟哥的私房菜》

sed是一种流编辑器，它是文本处理中非常中的工具，能够完美的配合正则表达式使用。sed 后面接的操作，务必以 '' 两个单引号括住。sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。

sed语法格式

sed [options] 'command' file(s)

sed [options] -f scriptfile file(s)

options有nefr：
-e：--expression=<script>以选项中指定的script来处理输入的文本文件；

-f：--file=<script>以选项中指定的script文件来处理输入的文本文件；-f filename

-n：仅显示script处理后的结果，只将符合的结果显示出来

-r：支持扩展型的正规语法，说明之后的指令中语法为扩展性的正规式

-i：直接编辑文件，在文件上修改

-n选项和p命令一起使用表示只打印那些发生替换的行

sed基本命令
a 在当前行下面插入文本。

i 在当前行上面插入文本。

c 把选定的行改为新的文本。

d 删除，删除选择的行。

D 删除模板块的第一行。

s 替换指定字符。sed 's/要被取代的字符串/新的字符串/g'

h 拷贝模板块的内容到内存中的缓冲区。

H 追加模板块的内容到内存中的缓冲区。

g 获得内存缓冲区的内容，并替代当前模板块中的文本。

G 获得内存缓冲区的内容，并追加到当前模板块文本的后面。

l 列表不能打印字符的清单。

n 读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。

N 追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码。

p 打印模板块的行。

P (大写) 打印模板块的第一行。

q 退出Sed。

b lable 分支到脚本中带有标记的地方，如果分支不存在则分支到脚本的末尾。

r file 从file中读行。

t label if分支，从最后一行开始，条件一旦满足或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。

T label 错误分支，从最后一行开始，一旦发生错误或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。

w file 写并追加模板块到file末尾。

W file 写并追加模板块的第一行到file末尾。

! 表示后面的命令对所有没有被选定的行发生作用。

= 打印当前行号码。

# 把注释扩展到下一个换行符以前。

sed替换标志

g 表示行内全面替换。

p 表示打印行。

w 表示把行写入一个文件。

x 表示互换模板块中的文本和缓冲区中的文本。

y 表示把一个字符翻译为另外的字符（但是不用于正则表达式）

1 子串匹配标记

& 已匹配字符串标记

sed字符集
^ 匹配行开始，如：/^sed/匹配所有以sed开头的行。

$ 匹配行结束，如：/sed$/匹配所有以sed结尾的行。

. 匹配一个非换行符的任意字符，如：/s.d/匹配s后接一个任意字符，最后是d。

* 匹配0个或多个字符，如：/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。

[] 匹配一个指定范围内的字符，如/[ss]ed/匹配sed和Sed。

[^] 匹配一个不在指定范围内的字符，如：/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头，紧跟ed的行。

(..) 匹配子串，保存匹配的字符，如s/(love)able/1rs，loveable被替换成lovers。

& 保存搜索字符用来替换其他字符，如s/love/**&**/，love这成**love**。

< 匹配单词的开始，如:/ 匹配单词的结束，如/love>/匹配包含以love结尾的单词的行。

x{m} 重复字符x，m次，如：/0{5}/匹配包含5个0的行。

x{m,} 重复字符x，至少m次，如：/0{5,}/匹配至少有5个0的行。

x{m,n} 重复字符x，至少m次，不多于n次，如：/0{5,10}/匹配5~10个0的行。

sed基本用法总结

有个网友总结的很棒，摘抄如下。

当需要从第N处匹配开始替换时，可以使用 /Ng：s/Life/life/2g 从第二个开始匹配

sed 'Command' filename(s) 只显示结果而不修改文件。

1、 sed '2,5d' filename 显示文件file，除去2-5行，如果超过实际行数也不会报错。

sed '/10[1-4]/d ' filename 显示文件，除去包含101-104的行

sed '2,$d' filename 显示文件file，只显示第一行；sed '2,$!d' file则只显示除第一行外的其它行。

sed '/^ *$/d' filename 删除文件中的空行

2、 sed -n '/10[1-4]/p' filename 只显示文件中包含filename的行，(-n和p必须同时使用，否则只有p时显示全部文件并多显示一次找到的行)

sed -n '5p' filename 只显示第5行；'5,10p' 显示5-10行

3、 sed 's/pattern/replace_string/g' filename 将匹配pattern的字符用replace_string替换。

sed -n 's/^west/north/p' file 将west开头的行替换为north并显示出来。
sed 's/[0-9][0-9][0-9]$/&.5/' file 将file文件中以3个数字结尾的行替换为原数字加".5"，&代表搜索到的字符串。
sed 's/(mod)ing/1en/g file 将mod做为模式1封装在括号里，然后替换。将moding替换成moden
sed 's/...$//'          file 删除每一行的最后三个字符。
sed 's/^...//'          file 删除每一行的头三个字符。
sed 's#moding#moden#g' file 将moding替换为moden，s后面的#代表搜索串和替换串之间的分界符。
4、 sed -n '/101/,/105/p' file 显示从101的匹配行到105的匹配行。如果只找到101的匹配行，则从101的匹配行到文件末。
sed -n '2,/999/p' file 显示从第2行到匹配行。
5、 sed '/101/,/105/s/$/  20050119/' file 将从101的匹配行到105的匹配行的行末增加" 20050119"内容。
6、 -e表示在同一行里可以执行多条命令

sed -e '1,3d' -e 's/moding/moden/g' file 先删除文件的1-3行，再进行替换。
sed -e '/^#/!d' file          显示文件以#开头的行。
7、 sed '/Life/r newfile' file 在每个匹配Life的行增加文件newfile的内容
sed '/Life/w newfile' file 把匹配Life的行写入newfile。会覆盖掉newfile中原来的内容。
8、 sed '/Life/a  ###' file 追加在匹配行后增加一新行，新行的内容为###
sed '/Life/i ###'       file 在匹配行前增加一新行，新行的内容为###

sed '/Life/c ###' file 用新行替换匹配行，新行的内容为###

9、 sed 'y/abcd/ABCD/' file 将a、b、c、d分别替换为ABCD。
10、 sed '5q' file 显示到第5行时退出。
11、 sed '/Life/{ n; s/moding/moden/g; }' file 在文件中找到与Life匹配行的后一行(n)再进行替换。
sed '/Life/{ s/moding/moden/g; q; }' file 在文件中找到第一个匹配行后进行替换后再退出。
12、sed -e '/Life/{ h; d; }' -e '/life/{ G; }' file 在文件中找到与Life匹配行后先存在一个缓存中，再放在与life匹配行后。
sed -e '/Life/{ h; d; }' -e '/life/{ g; }' file 在文件中找到与Life匹配行后先存在一个缓存中，再替代life的匹配行。
sed -e '/Life/h' -e '$G' file 将最后一个匹配行放在文件末。
sed -e '/Life/h' -e '$g' file 将最后一个匹配行替换文件末行。
sed -e '/Life/h' -e '/life/x' file 在文件中找到与Life匹配行后先存在一个缓存中，再与life的匹配行进行互换。
13、sed -f sfile file 根据文件sfile的命令列表进行操作。

14、sed命令可以替换给定文本中的字符串。它可以利用正则表达式进行匹配。

$ sed ‘s/pattern/replace_string/’ file

Sed命令也可以从stdin中读取输入，如：

$ cat file | sed ‘s/pattern/replace_string/’

使用-i选项，sed可以将替换结果应用于原文件，如：

$ sed –i ‘s/text/replace/’ file

以上sed命令会将每一行中第一处符合样式的内容替换掉，如果要替换每一行中的所有内容，可在命令尾部加上参数g，如：

$ sed ‘s/pattern/replace_string/g’ file

选项/Ng可以忽略前N-1处匹配，并从第N处开始替换，如：

$echo thisthisthisthis | sed ‘s/this/THIS/3g’

字符/在sed命令中作为定界符使用，其实任意字符都可以当作定界符，如：

$ sed ‘s:text:replace:g’

$ sed ‘s|text|replace|g’

当定界符出现在样式内部时，我们必须使用前缀对它进行转义。

/pattern/d会移除匹配样式的行，我们可以利用这个移除文件空白行：

$ sed ‘/^$/d’ file

15、$ echo this is an example | sed ‘s/w+/[&]/g’

[this] [is] [an] [example] 正则表达式w+匹配每一个单词，使用[&]替换它，&对应于之前所匹配到的单词。

Sed命令也可以匹配给定样式中的子串。(pattern)用于匹配子串。模式被包括在使用斜线转义过的()中。对于匹配到的第一个子串，其对应的标记是1，匹配到的第二个子串是2，往后依次类推。例：

$ echo this is digit 7 in a number | sed ‘s/digit ([0-9])/1/’

This is 7 in a number 这条命令将digit 7替换为7。样式中匹配到的子串是7。下面是包含多个匹配的例子：

$ echo seven EIGHT | sed ‘s/([a-z]+) ([A-Z]+)/2 1/’

EIGHT seven ([a-z]+)匹配第一个单词，([A-Z]+)匹配第二个单词，1和2用来引用它们。

16、 Sed命令还可以组合多个表达式，如利用管道组合多个sed命令的方法可以用以下方式代替：

$ sed ‘expression1’ | sed ‘expression2’这等价于 $ sed ‘expression1; expression2’

Sed表达式通常用单引号来引用。不过也可以使用双引号。双引号会通过对表达式求值来对其进行扩展，例如：

$ text=hello

$ echo hello world | sed “s/$text/HELLO/”

HELLO world

17、有这样一个文件，每行的格式为：{type}:value t3 t4…

其中value与t之间以’ ’隔开，要求将type和value提取出来，输出格式为：type value t3 t4…各数据之间以’ ’隔开。

解决方案：用sed语句将{type}:替换为type ，使用子串替换的方法。

$ sed ‘s/{(w+)}:/1 /g’ file

18、选定行的范围：，

　　打印从第5行开始到第一个包含以test开始的行之间的所有行：sed '5,/^test/p' filename

对于模板test和west之间的行，每行的末尾用字符串aaa bbb替换：sed '/test/,/west/s/$/aaa bbb/' filename
19、打印奇数行： sed -n 'p;n' test.txt #奇数行或者 sed -n '1~2p' test.txt #奇数行
打印奇数行：sed -n '2~2p' test.txt #偶数行或者 sed -n 'n;p' test.txt #偶数行

相关阅读:
百度面试题
分治法--二分查找、乘方、斐波那契数
01-11李宁老师学Python视频课程（1）：初识Python返回课程
邮件发送的两种实现方法。
Docker(一)：Docker入门教程
安装docker及在docker中安装python环境学
vim编辑器的使用和CentOS有很多不同
大一编程基础培训]==02-03-04-05课==类型
大一编程基础培训]==08课==条件判断]==07课==Python的LIST与TUPLE数据类型
Beautiful Soup 4.2.0 文档¶ BeautifulSoup对象内任何第一个标签入口，使用find()方法。

原文地址：https://www.cnblogs.com/silence-hust/p/4534577.html