• HtmlAgilityPack HTML操作类库的使用


      HtmlAgilityPack是.NET下的一个开源的HTML解析类库。支持用XPath来解析HTML。命名空间:HtmlAgilityPack。

    1、读取网络中html网页内容,获取网页中元素body内的html,处理所有img元素的src属性后以字符串返回

                        if (l_sWenBenHtmlFtpPath.Substring(l_sWenBenHtmlFtpPath.LastIndexOf(".") + 1) == "html")  
                        {
                            HtmlWeb htmlWeb = new HtmlWeb();
                            HtmlDocument htmlDoc = htmlWeb.Load(l_sWenBenHtmlFtpPath);
                            HtmlNode htmlNode = htmlDoc.DocumentNode;                                                
                            HtmlNodeCollection nodes = htmlNode.SelectNodes("//body");  //使用xpath语法进行查询
                            if (nodes != null)
                            {
                                foreach (HtmlNode bodyTag in nodes)
                                {                                
                                    HtmlNodeCollection nodes2 = htmlNode.SelectNodes("//img");  //使用xpath语法进行查询                                
                                    if (nodes2 != null)
                                    {
                                        foreach (HtmlNode imgTag in nodes2)
                                        {
                                            string imgHttpPath = imgTag.Attributes["src"].Value;
                                            imgTag.Attributes["src"].Value = l_sWenBenHtmlFtpPath.Substring(0, l_sWenBenHtmlFtpPath.LastIndexOf("/") + 1) + imgHttpPath;
                                        }
                                    }
                                    l_sWenBenHtml = bodyTag.InnerHtml;
                                }
                            }
                        }

    2、通过HtmlAgilityPack Html操作类库将html格式的字符串加载为html文档对象,再对html dom进行操作

                    //1.解码前台提交的html字串
                                    string sDecodeString = HttpUtility.HtmlDecode(HttpUtility.UrlDecode(sEncodeString));
                                    //2.拼接成完整的html字串
                                    sDecodeString = @"<!DOCTYPE html><html><head><meta http-equiv=""content-type"" content=""text/html;charset=UTF-8""/>"
                                        + @"</head><body><div>" 
                      + sDecodeString + @"</div></body></html>";
                                    //3.处理html的img标签的src属性-C#的HTML DOM操作
                                    HtmlDocument doc = new HtmlDocument();
                                    doc.LoadHtml(sDecodeString.Replace("
    ", " "));
                                    HtmlNode node = doc.DocumentNode;
                                    HtmlNodeCollection nodes = node.SelectNodes("//img");   //使用xpath语法进行查询
                                    if (nodes != null)  //没有img节点时出错
                                    {
                                        //处理html字符串中img标签的src属性
                                        foreach (HtmlNode imgTag in nodes)
                                        {
                                            string imgHttpPath = imgTag.Attributes["src"].Value;
                                            imgHttpPath = imgHttpPath.Substring(imgHttpPath.LastIndexOf("/") + 1);
                                            imgTag.Attributes["src"].Value = imgHttpPath;                                      
                                        }
                                    }
                                    //4.获取处理后的html字符串
                                    sHtmlString = node.OuterHtml;    //处理img中src属性后的html字符串
                    //5.将字符串存入html格式的文件中
                    //do something           

    ......

    作者:yuzhihui
    出处:http://www.cnblogs.com/yuzhihui/
    声明:欢迎任何形式的转载,但请务必注明出处!!!
  • 相关阅读:
    c/c++中两颗璀璨的明珠
    deepin软件中心打不开
    shell之rm -rf的别名设置
    历史命令脚本
    mysql之7xtrabackup
    python之3内置容器
    python之第一个例子hello world
    python之安装
    shell脚本练习(autocert)
    【转】nginx之逻辑运算
  • 原文地址:https://www.cnblogs.com/yuzhihui/p/5339103.html
Copyright © 2020-2023  润新知