【一】、正则表达式的规则
- % 匹配行首 – 表明要搜索的字符串一定在行首.
- $ 匹配行尾 – 表明要搜索的字符串一定在行尾
- ? 匹配除换行符外的任一单个字符.
- * 匹配任意个数的字符出现任意次数(不包括换行符)
- + 匹配前导字符或者表达式出现一次或者更多次(不包括换行符)
- ++ 匹配前导字符或者表达式不出现或者出现一次以上(不包括换行符)
- ^b 匹配页中断符
- ^p 匹配DOS文件的换行符
- ^r 匹配MAC文件的换行符(CR Only)
- ^n 匹配UNIX文件的换行符 (LF Only)
- ^t 匹配一个制表符
- [ ] 匹配方括号中的单个的字符
【二】、常用的正则表达式
- 删除空行: 替换 %[ ^t]++^p 为 空串
- 删除回车换行 : 替换 ^r^n 为 空串
- 删除行尾空格: 替换 [ ^t]+$ 为 空串
- 删除行首空格: 替换 %[ ^t]+ 为 空串
- 每行设置为固定的4个空格开头: 替换 %[ ^t]++^([~ ^t^p]^) 为 ” ^1″
- 每段设置为固定的4个空格开头: 替换 %[ ^t]+ 为 ” ” (如果一行是以空格开始的,则视之为一段的开始行)
- 将一段合并为一行: 替换 [ ^t]++^p^([~ ^t^p]^) 为 ^1 (注意: 此处假定文本是以DOS方式回车换行 – CR/LF)
- 去掉HTML TAG: 替换 ^{<*>^}^{<*^p*>^} 为 空串
- 删除HTML中的所有: 替换 <[ ]++a *[ ]++href[ ]++=*> 为 空串
- 删除文本中指定的前2列字符: 替换 %?? 为 空串
- 在第4列后插入2列空白字符: 替换 %^(????^)^(?^) 为 “^1 ^2″
- 查找所有的数字: [0-9]+[.]++[0-9]+
- 查找所有的单词: [a-z]+
- 查找所有的网址: http://[a-z0-9^~`_./^-^?=&]+