• C# 替换去除HTML标记方法(正则表达式)


    1. using System.Text.RegularExpressions;     //包含正则表达式   
    2.   
    3.      public static string NoHTML(string Htmlstring) //去除HTML标记   
    4.       {   
    5.           //删除脚本   
    6.           Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>""", RegexOptions.IgnoreCase);   
    7.           //删除HTML   
    8.           Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>""", RegexOptions.IgnoreCase);   
    9.           Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+""", RegexOptions.IgnoreCase);   
    10.           Htmlstring = Regex.Replace(Htmlstring, @"-->""", RegexOptions.IgnoreCase);   
    11.           Htmlstring = Regex.Replace(Htmlstring, @"<!--.*""", RegexOptions.IgnoreCase);   
    12.   
    13.           Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);""\"", RegexOptions.IgnoreCase);   
    14.           Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);""&", RegexOptions.IgnoreCase);   
    15.           Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);""<", RegexOptions.IgnoreCase);   
    16.           Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);"">", RegexOptions.IgnoreCase);   
    17.           Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);"" ", RegexOptions.IgnoreCase);   
    18.           Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);""\xa1", RegexOptions.IgnoreCase);   
    19.           Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);""\xa2", RegexOptions.IgnoreCase);   
    20.           Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);""\xa3", RegexOptions.IgnoreCase);   
    21.           Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);""\xa9", RegexOptions.IgnoreCase);   
    22.           Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);""", RegexOptions.IgnoreCase);   
    23.   
    24.           Htmlstring.Replace("<""");   
    25.           Htmlstring.Replace(">""");   
    26.           Htmlstring.Replace("\r\n""");   
    27.           Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();   
    28.   
    29.           return Htmlstring;   
    30.       }  
    1.    /// <summary>   
    2.       /// 将所有HTML标签替换成""   
    3.       /// </summary>   
    4.       /// <param name="strHtml"></param>   
    5.       /// <returns></returns>   
    6.       public static string StripHTML(string strHtml)   
    7.       {   
    8.           string[] aryReg ={   
    9.      @"<script[^>]*?>.*?</script>",   
    10.      @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(file://[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",   
    11.      @"([\r\n])[\s]+",   
    12.      @"&(quot|#34);",   
    13.      @"&(amp|#38);",   
    14.      @"&(lt|#60);",   
    15.      @"&(gt|#62);",    
    16.      @"&(nbsp|#160);",    
    17.      @"&(iexcl|#161);",   
    18.      @"&(cent|#162);",   
    19.      @"&(pound|#163);",   
    20.      @"&(copy|#169);",   
    21.      @"&#(\d+);",   
    22.      @"-->",   
    23.      @"<!--.*\n"  
    24.        
    25.     };   
    26.   
    27.           string[] aryRep = {   
    28.       "",   
    29.       "",   
    30.       "",   
    31.       "\"",   
    32.       "&",   
    33.       "<",   
    34.       ">",   
    35.       " ",   
    36.       "\xa1",//chr(161),   
    37.       "\xa2",//chr(162),   
    38.       "\xa3",//chr(163),   
    39.       "\xa9",//chr(169),   
    40.       "",   
    41.       "\r\n",   
    42.       ""  
    43.      };   
    44.   
    45.           string newReg = aryReg[0];   
    46.           string strOutput = strHtml;   
    47.           for (int i = 0; i < aryReg.Length; i++)   
    48.           {   
    49.               Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);   
    50.               strOutput = regex.Replace(strOutput, aryRep[i]);   
    51.           }   
    52.   
    53.           strOutput.Replace("<""");   
    54.           strOutput.Replace(">""");   
    55.           strOutput.Replace("\r\n""");   
    56.   
    57.   
    58.           return strOutput;   
    59.       }  
  • 相关阅读:
    2018-2019-2 网络对抗技术 20165230 Exp2 后门原理与实践
    BZOJ2038: [2009国家集训队]小Z的袜子(hose)
    BZOJ3262陌上花开 树状数组+Treap
    BZOJ1468 Tree 点分治入门练习题
    BZOJ2152 聪聪可可 点分治入门
    BZOJ3506 BZOJ1552 排序机械臂 Splay区间翻转(数组版自底向上的写法)
    BZOJ3196: Tyvj 1730 二逼平衡树 (线段树 + Treap 练习题)
    ZOJ2112 Dynamic Rankings 动态区间Kth(单点修改) 线段树+Treap写法
    OO第4单元总结&课程总结
    OO第三单无总结
  • 原文地址:https://www.cnblogs.com/fery/p/1605679.html
Copyright © 2020-2023  润新知