一、正则表达式教程
有一个经典的教程: 正则表达式30分钟入门教程,大家可以搜索一下。
这个教程的确很简单,看完基本上写一些简单的正则就没有问题了。正则是一个需要长期使用的工具,隔段时间不用会忘记,所以我每次都看一遍这个教程。其实学过之后重要的就是一点内容。
简单罗列如下:
.换行符以外的所有字符
w 匹配字母或数字或下划线或汉字
s 匹配任意的空白符
d 匹配数字
匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,}重复n次或更多次
{n,m} 重复n到m次
应用替换时,前面第一个()中匹配的内容后面就用$1引用,第二个()中匹配的就用$2应用……
分析一下 discuz搜索引擎优化 htaccess 里面的重写。
RewriteRule ^forum-([0-9]+)-([0-9]+).html$ forumdisplay.php?fid=$1&page=$2
首先加入用户通过 linuxidc.com/forum-2-3.html 访问discuz论坛,那么先通过.htaccess过滤,看看是否需要.htaccess引导一下用户,如果满足列出的一系列RewriteCond的 条件那么就进行重写,
discuz的没有列出RewriteCond 所以应该全部都进行重写。所以开始进行转写,forum-2-3.html 这个正好符合 列出的^forum-([0-9]+)-([0-9]+).html$ 正则表达式。并且 $1 为 2 ,$2为3 ,所以代
入后面,即 forumdisplay.php?fid=2&page=3 加上前面的RewriteBase 指定的文件目录,那么就带他到制定目录的forumdisplay.php?fid=2&page=3 。
二、常见的.htaccess应用举例(部分例子引自四个例子实战讲解.htaccess文件rewrite规则)
4.1 防止盗链,如果来得要访问jpe jpg bmp png结尾的url 用户不是来自我们的网站,那么让他看一张我们网站的展示图片。
RewriteEngine OnRewriteCond %{HTTP_REFERER} !^http://(.+.)?mysite.com/ [NC]RewriteCond %{HTTP_REFERER} !^$RewriteRule .*.(jpe?g|gif|bmp|png)$ /images/nohotlink.jpg [L]
4.2 网站升级的时候,只有特定IP才能访问,其他的用户将看到一个升级页面
RewriteEngine onRewriteCond %{REQUEST_URI} !/upgrade.html$RewriteCond %{REMOTE_HOST} !^24.121.202.30
RewriteRule $ http://www.linuxidc.com/upgrade.html [R=302,L]
4.3把老的域名转向新域名
# redirect from old domain to new domainRewriteEngine OnRewriteRule ^(.*)$http://www.yourdomain.com/$1[R=301,L]
三、常用示例
RewriteEngine On
RewriteRule index.html index.php
比如:http://www.3code.cn/index.html -> http://www.3code.cn/index.php
RewriteRule ^test([0-9]*).html$ test.php?id=$1
比如:http://www.3code.cn/test8.html -> http://www.3code.cn/test.php?id=8
RewriteRule ^cat-([0-9]+)-([0-9]+).html$ cat.php?id1=$1&id2=$2
比如:http://www.3code.cn/cat-1-3.html -> http://www.3code.cn/cat.php?id1=1&id2=3
RewriteRule ^cat-([a-zA-Z0-9-]*)-([0-9]+)-([0-9]+).html$ cat.php?id0=$1&id1=$2&id2=$3
比如:http://www.3code.cn/cat-zbc2ac-3-5.html -> http://www.3code.cn/cat.php?id0=zbc2ac&id1=3&id2=5
RewriteRule ^cat1-([0-9]+)-([0-9]+)-([0-9]+).html$ cat1.php?id1=$1&id2=$2&id3=$3
比如:http://www.3code.cn/cat1-4-3-8.html -> http://www.3code.cn/cat1.php?id1=4&id2=3&id3=8
RewriteRule ^cat([0-9]*)/$ cat.php?id1=$1
比如:http://www.3code.cn/cat5/ -> http://www.3code.cn/cat.php?id1=5
RewriteRule ^catm([0-9]*)/([0-9]*)/$ catm.php?id1=$1&id2=$2
比如:http://www.3code.cn/catm6/3/ -> http://www.3code.cn/catm.php?id1=6&id2=3
2、Apache的URL地址重写 http://hi.baidu.com/sonan/blog/item/c408963d89468208bba16716.html 第一种方法:Apache环境中如果要将URL地址重写,正则表达式是最基本的要求,但对于一般的URL地址来说,基本的匹配就能实现我们大部分要求,因此除非 是非常特殊的URL地址,但这不是我要讨论的范围,简单几招学会Apache中URL地址重写,通过实例展示,轻松学会URL地址重写: URL实例 重写URL:http://www.baidu.com/?p=152 原始URL:http://www.baidu.com/p152.html 重写规则: ^p([0-9]+).html /?p=$1 [L] 正则基础知识: ^ 匹配行的开始,匹配URL地址的开头部分,对于RewriteRule而言,域名(http://www.biuuu.com)不是URL地址的一部分,如上:?p=152 () 分隔一个被捕获的表达式,如上:([0-9]+) [] 定义字符类,如上:[0-9] 表示从0-9的数字 + 说明前面的字符可以被重复匹配1次或数次,如上:[0-9]+,表示任何数字组合 字符转义,如上:转义. 其它: [L] 表示last,停止匹配其它 方法如下: 1,打开httpd.conf文件,找到 #LoadModule rewrite_module modules/mod_rewrite.so 注释前面# 2,打开httpd-vhosts.conf文件,在VirtualHost添加重写规则, RewriteEngine On RewriteRule ^p([0-9]+).html /?p=$1 [L] 基本上就上面这两个步骤,其实总的来说,Apache中URL地址重写还是比较简单的,比看文档学习要快的多,不过要想深入了解还是有必要看看相关文档的,其它规则可以自定义。记住一点:任何匹配其实就是一个正则表达式的替换过程。 创建友好的搜索引擎URL地址对于PHP程序员来说非常重要,因此简单学会Apache中URL地址重写将是一项最基本的要求。 第二种方法: 1,首先检查是否已安装rewrite模块: cat httpd.conf | grep rewrite LoadModule rewrite_module modules/mod_rewrite.so 2,生成伪静态html连接: (1)生成伪静态html 在<VirtualHost>段最后加入 RewriteEngine on RewriteRule /goods([0-9]+).html /goods.php?id=$1 [PT] 更标准的写法为: RewriteRule ^(.*)/goods([0-9]+).html$ $1/goods.php?id=$2 [PT] 更简洁的写法: /goods(d+).html /goods.php?id=$1 第一个(0-9]+)对应参数$1,以此类推第二个对应$2 举例: RewriteRule /forum-([0-9]+)-([0-9]+).html /forumdisplay.php?fid=$1&page=$2 [PT] 测试http://www.xxx.com/goods1.html 是否与/goods.php?id=1的内容相同 最后将所有链接换成设置后的伪静态html地址方式 [PT]:url全局转换,即转换过的goods31.html对应goods.php?id=31 (默认就是这个不加参数) [R]: url重定向 即使用goods31.html访问时跳转到goods.php?id=31 3,防盗链: RewriteCrond %{HTTP_HOST} !upkiller.com [R=301,L] RewriteRule ^(.*)$ http://www.upkiller.com/warning.html [R=301,L] 把不是来自upkiller.com的请求重定向到http://www.upkiller.com 更好的做法: RewriteCond %{HTTP_REFERER} !^http://(www.)?upkiller.com/.*$ [NC] RewriteRule .(mp3|rar|jpe|gif)$ http://www.upkiller.com/warning.jpg [R=301,L] 4,防百度爬虫: RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR] RewriteRule ^(.*)$ http://www.google.com [R=301,L] 把来自百度的爬虫转到goole PS:PHP伪静态方式 方法一: 比如这个网页 http://www.xxxx.com/soft.php/1,100,8630.html 其实处理的脚本是soft.php 参数为1,100,8630 相当于soft.php?a=1&b=1=100&c=8630 只不过这样的URL太难记。搜索引擎也不喜欢。 真静态只是完全生成了HTML。 客户端访问的时候直接输出。不用脚本解释。在流量非常大的时候(比如每天有上百万的访问量的时候)会起到很好的效果。也就是说服务器端实实在在的存在这个HTML页面。 当然在你网站的流量没有那么大的时候。URL重写是最好的方法(个人观点,大流量的时候可以考虑负载均衡了。同样没有关系) 附URL重写的方法有很多种,APACHE,IISREWRITE。甚至PHP脚本都可以直接处理。比如上例中就是PHP脚本直接处理(该方法好处是大流量的时候直接减轻WEB伺服器的压力。PS:同样也是个人观点: ================================================ 下面以程序为例讲一下PHP伪静态的程序实现方法,其实这方法我之前已经有在其它论坛社区发过 程序为例: http://www.xxxx.com/soft.php/1,100,8630.html CODE: //利用server变量 取得PATH_INFO信息 该例中为 /1,100,8630.html 也就是执行脚本名后面的部分 if(@$path_info =$_SERVER["PATH_INFO"]){ //正则匹配一下参数 if(preg_match("//(d+),(d+),(d+).html/si",$path_info,$arr_path)){ $gid =intval($arr_path[1]); //取得值 1 $sid =intval($arr_path[2]); //取得值100 $softid =intval($arr_path[3]); //取得值8630 }else die("Path:Error!"); //相当于soft.php?gid=1&sid=100&softid=8630 //就是这么简单了。~) 方法二: 一 打开 Apache 的配置文件 httpd.conf 。 二 将#LoadModule rewrite_module modules/mod_rewrite前面的#去掉 三 在 httpd.conf中添加: <IfModule mod_rewrite.c> RewriteEngine On #RewriteCond %{ENV:SCRIPT_URL} (?:index|dispbbs)[-0-9]+.html RewriteRule ^(.*?(?:index|dispbbs))-([-0-9]+).html 1.php?__is_apache_rewrite=1&__rewrite_arg=2 </IfModule> 四 要实现asp帖子URL到php帖子的映射,在 第三步的<IfModule mod_rewrite.c>和</IfModule>之间添加: RewriteMap tolowercase int:tolower RewriteCond %{QUERY_STRING} (?:boardid|page|id|replyid|star|skin)=d+ [NC] RewriteRule ^(.*(?:index|dispbbs)).asp 1.php?{tolowercase:%{QUERY_STRING}}&__is_apache_rewrite=1 五 保存httpd.conf并重启Apache 方法三: <?php /* 功能:PHP伪静态化页面的实现 具体用法: 例如链接为:test.php/year/2006/action/_add.html mod_rewrite(); $yearn=$_GET["year"];//结果为'2006' $action=$_GET["action"];//结果为'_add' */ function mod_rewrite(){ global $_GET; $nav=$_SERVER["REQUEST_URI"]; $script_name=$_SERVER["SCRIPT_NAME"]; $nav=substr(ereg_replace("^$script_name","",urldecode($nav)),1); $nav=preg_replace("/^.ht(m){1}(l){0,1}$/","",$nav);//这句是去掉尾部的.html或.htm $vars = explode("/",$nav); for($i=0;$i<Count($vars);$i+=2){ $_GET["$vars[$i]"]=$vars[$i+1]; } return $_GET; } mod_rewrite(); $yearn=$_GET["year"];//结果为'2006' $action=$_GET["action"];//结果为'_add' echo $yearn; echo $action; ?> <?php /* 功能:PHP伪静态化页面的实现 具体用法: 例如链接为:test.php/year/2006/action/_add.html mod_rewrite(); $yearn=$_GET["year"];//结果为'2006' $action=$_GET["action"];//结果为'_add' */ function mod_rewrite(){ global $_GET; $nav=$_SERVER["REQUEST_URI"]; $script_name=$_SERVER["SCRIPT_NAME"]; $nav=substr(ereg_replace("^$script_name","",urldecode($nav)),1); $nav=preg_replace("/^.ht(m){1}(l){0,1}$/","",$nav);//这句是去掉尾部的.html或.htm $vars = explode("/",$nav); for($i=0;$i<Count($vars);$i+=2){ $_GET["$vars[$i]"]=$vars[$i+1]; } return $_GET; } mod_rewrite(); $yearn=$_GET["year"];//结果为'2006' $action=$_GET["action"];//结果为'_add' echo $yearn; echo $action;