HtmlUnit是一款开元的Java页面分析工具,可以有效的使用htmlunit分析页面大汉的内容,项目可以模拟浏览器运行,被誉为Java浏览器的开元实现,这个没有界面的浏览器
API的使用
模拟特定浏览器
例: WebClient webClient=new WebClient(BrowserVersion.FIREFOX_3); //模拟火狐浏览器
查找特定元素
通过get方法获取
HtmlPage page=WebClient.getPage("网址"); //获取到网页源代码
HtmlDivision div=(HtmlDivision)page.getElementById("hed"); //获取id属性值为hed的元素。
通过Xpath获取、
HtmlDivision div=(HtmlDivision)page.getByXPath("//div").get(0);
System.out.println(div.asXml()); //输出代码
代理服务器的配置
代理配置很简单,只需要配置好地址,端口,用户名与密码即可
例://创建对象
WebClient webClient=new WebClient(BrowserVersion.CHROME,"http://127.0.0.1",8087); //模拟浏览器,代理IP地址 端口号
DefaultCredentialsProvider credentialsProvider=webClient.getCredentialsProvider();
//设置用户名密码 credentialsProvider.addCredentials(“username”,“password”);