• 网页采集时,常用的几种正则表达式


    1,得到网页上的链接地址:
          string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
    2,得到网页的标题:
          string matchString = @"<title>(?<title>.*)</title>";
    3,去掉网页中的所有的html标记:
          string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
    4, string matchString = @"<title>([\S\s\t]*?)</title>";
    5,js去掉所有html标记的函数:
          function delHtmlTag(str)
         {
            return str.replace(/<\ .+?>/g,"");//去掉所有的html标记
         }
       这个可能IE5会错,那用这个,梅花的:
        function delHtmlTag(str)
    {
       return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
    }
    下电影就上 挖沙啦电影网 - 更多免费高清电影下载
  • 相关阅读:
    Memcached安装
    linux 安装telnet
    varnish应用
    linux 安装apache
    varnishlog、Varnishstat详解
    varnish CLI管理
    varnish 子程序流程
    python3 cms识别类
    python3 fofa爬取类
    每日健康打卡
  • 原文地址:https://www.cnblogs.com/zzmzaizai/p/1015421.html
Copyright © 2020-2023  润新知