• 小记---------网页之htmlunit


       HtmlUnit是一款开元的Java页面分析工具,可以有效的使用htmlunit分析页面大汉的内容,项目可以模拟浏览器运行,被誉为Java浏览器的开元实现,这个没有界面的浏览器
     
    API的使用
        模拟特定浏览器
            例:    WebClient webClient=new WebClient(BrowserVersion.FIREFOX_3);    //模拟火狐浏览器
     
    查找特定元素
     通过get方法获取
            HtmlPage page=WebClient.getPage("网址");    //获取到网页源代码
            HtmlDivision div=(HtmlDivision)page.getElementById("hed");    //获取id属性值为hed的元素。
     
    通过Xpath获取、
            HtmlDivision div=(HtmlDivision)page.getByXPath("//div").get(0);
    System.out.println(div.asXml());    //输出代码
     
    代理服务器的配置
        代理配置很简单,只需要配置好地址,端口,用户名与密码即可
        例://创建对象
     WebClient webClient=new WebClient(BrowserVersion.CHROME,"http://127.0.0.1",8087);     //模拟浏览器,代理IP地址   端口号
     
     DefaultCredentialsProvider credentialsProvider=webClient.getCredentialsProvider();  
     
    //设置用户名密码 credentialsProvider.addCredentials(“username”,“password”);
     
     
  • 相关阅读:
    PAT 1142 Maximal Clique
    PAT 1076 Forwards on Weibo
    PAT 1021 Deepest Root
    PAT 1030 Travel Plan*
    diji模板
    PAT 1020 Tree Traversals
    PAT 1108 Finding Average
    PAT 1104 Sum of Number Segments
    PAT 1100 Mars Numbers
    PAT 1096 Consecutive Factors
  • 原文地址:https://www.cnblogs.com/yzqyxq/p/11574943.html
Copyright © 2020-2023  润新知