网页采集时,常用的几种正则表达式 - 润新知

网页采集时,常用的几种正则表达式

1，得到网页上的链接地址：
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2，得到网页的标题：
      string matchString = @"<title>(?<title>.*)</title>";
3，去掉网页中的所有的html标记：
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数：
      function delHtmlTag(str)
     {
        return str.replace(/<\ .+?>/g,"");//去掉所有的html标记
     }
   这个可能IE5会错，那用这个，梅花的：
    function delHtmlTag(str)
{
   return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}

下电影就上挖沙啦电影网 - 更多免费高清电影下载
相关阅读:
cmd查看端口号是否占用
 重新安装安全狗以后，apchpe 启动不了。
springcloud组件-eureka
关于mybatis和spring整合后的一级缓存
 SpringCloud理解篇
 mycat的读写分离
 mycat的分库分表
 Linux下mysql服务器配置
 mycat理解
 linux配置mysql
原文地址：https://www.cnblogs.com/zzmzaizai/p/1015421.html

热门文章
面向对象-封装
 面向对象
 数组
 命令行传参
 可变参数、递归
 方法
 Java-结构
 Java-Scanner
JavaDOC
windows cmd窗口，输出UTF-8格式文件，显示乱码

Copyright © 2020-2023 润新知