HttpClient4.0&HtmlCleaner用法

**************************HttpClient4.0用法*****************************
1、初始化HttpParams，设置组件参数
        //HttpParams接口代表一个不可改变值的集合，定义一个组件运行时行为。代表一个对象集合，该集合是一个键到值的映射。
//HttpParams作用是定义其他组件的行为，一般每个复杂的组件都有它自己的HttpParams对象。

   HttpParams params = new BasicHttpParams();

   // HTTP 协议的版本,1.1/1.0/0.9
   HttpProtocolParams.setVersion(params, HttpVersion.HTTP_1_1);
   HttpProtocolParams.setUserAgent(params, "HttpComponents/1.1");
   HttpProtocolParams.setUseExpectContinue(params, true);

   ConnManagerParams.setMaxTotalConnections(params, maxconnections); // 设置最大连接数maxconnections);
   ConnManagerParams.setTimeout(params, timeout*1000); // 设置超时时间 timeout 秒
2、初始化SchemeRegistry,设置访问协议

（Scheme 类代表了一个协议模式，比如“http”或“https”，同时包含一些协议属性（如默认端口），用来为给定协议创建java.net.Socket实例的套接字实例。SchemeRegistry类用来维持一组Scheme，当去通过请求URI建立连接时，HttpClient可以从中选择：）
         //Scheme类表示一个协议方案，例如"http"或者"https"和包含许多的协议属性，
         //例如缺省的端口和socket工厂常用于为指定的协议创建java.net.Socket实例，SchemeRegistry类被用来维护一个Schemes的集合
   SchemeRegistry schemeRegistry = new SchemeRegistry();
   schemeRegistry.register(new Scheme("http", PlainSocketFactory
.getSocketFactory(), 80));
   schemeRegistry.register(new Scheme("https", SSLSocketFactory
.getSocketFactory(), 443));
3、初始化httpclient会话连接管理器
         //HTTP连接是复杂、有状态的，非线程安全的对象需要适当的管理正确的功能。HTTP连接每次仅被一个执行的线程使用，
         //HttpClient利用一个特殊的实体管理访问HTTP连接，称为HTTP连接管理器,由ClientConnectionManager接口表示。
         //HTTP连接管理器的充当一个新的HTTP连接工厂，管理持续的连接和同步的访问持续的连接，确保每次只有一个线程能访问连接。
   ClientConnectionManager connectionManager = new ThreadSafeClientConnManager(params,
schemeRegistry);
4、初始化httpClient并加入会话连接管理器，此步很重要，对于使用httpclient多线程并发访问服务系统很有用
         //HttpClient最重要的功能是执行HTTP方法。执行一个HTTP方法涉及一个或多个HTTP请求/ HTTP响应信息交流，
         //通常是由HttpClient内部处理。用户提供一个请求对象，HttpClient发送请求到目标服务器，
         //希望服务器返回一个相应的响应对象，或者抛出一个异常（如果执行失败）。
   HttpClient httpClient = new DefaultHttpClient(connectionManager, params);
5、定义HttpHost
         // HttpHost代表访问的主机
         String sHost = "www.hao123.com"; //访问服务器的主网址
         httpHost = new HttpHost(sHost);

6、执行get请求
6.1 先定义方法getResponseContent，用来根据指定系统编码获取响应主体内容，很有用的方法
         public String getResponseContent(HttpEntity responseEntity)
throws Exception {
byte[] bytes = EntityUtils.toByteArray(responseEntity);
                String sCharSet="GB2312";       //这里可以定义你指定的编码，中文网站编码一般为GB2312
return new String(bytes, sCharSet);
}

6.2 执行get请求，获取响应的html内容
         String sURL="/abc/index.html"; //定义你需要访问的网址后面的路径
         HttpGet httpGet = new HttpGet(sURL);//定义get请求
         HttpResponse httpResponse = httpClient.execute(httpHost, httpGet); //使用httpclient执行get请求并返回响应访问的网址为 www.hao123.com/abc/index.html
         // 2 获取响应
HttpEntity responseEntity = httpResponse.getEntity();
String sReturnHtml = getResponseContent(responseEntity);//得到get请求返回的html页面，然后就做你想做的东西了
         //比如解析html页面，得到你想得到的东西

         httpGet.abort();//释放连接资源，很重要，不能缺少

7、执行post请求
7.1初始化httppost
   String sURL="/abc/index.html";
   HttpPost httpPost = new HttpPost(sURL);
7.2设置Post请求参数NameValuePair
   List<NameValuePair> nvps = new ArrayList<NameValuePair>();
   nvps.add(new BasicNameValuePair("name", "testname"));
   nvps.add(new BasicNameValuePair("password", "testpassword"));
7.3把请求参数按指定编码设置到httppost中，设置httppost请求头内容，可解决中文乱码问题，非常重要
   String sCharSet="GB2312";
   httpPost.setEntity(new UrlEncodedFormEntity(nvps, sCharSet));
   // ---begin解决中文乱码问题
   httpPost.addHeader("Content-Type","application/x-www-form-urlencoded");
   httpPost.addHeader("Accept-Language", "zh-cn");
   httpPost.addHeader("Accept-Encoding", "gzip, deflate");
   // ---end
7.4执行post请求，得到响应做其他操作

   HttpResponse httpResponse = httpClient.execute(httpHost, httpPost);
   HttpEntity responseEntity = httpResponse.getEntity();
   String sHtml = getResponseContent(responseEntity);

   httpPost.abort();//释放连接资源

8
   connectionManager.shutdown();//关闭连接管理器

总结：使用httpclient访问需要用户登录的网站做相关操作，需要从登录、判断登录成功、做你想要的事情、退出一连贯动作
      因为大部分网站服务器是根据用户访问的会话session来判断一个用户是否在线的才能做相关操作，所以退出动作不实现的话，
      在httpclient多线程并发访问网站的时候，服务器会出现数据混乱等想不到的状况。
      判断登录是否成功这个问题，我的解决方案是获取登录POST请求返回响应，然后从响应中获取重定向地址。
      一般的WEB服务系统设计时，登录成功和失败返回的重定向地址是不一致的。所以我只要判断返回的重定向地址是否是成功的就可以了。
         /****
* 获取响应头重定向地址
* @param response
* @return
*/
public String getRedirectLocation(HttpResponse response) {
String sReturn;
Header locationHeader = response.getFirstHeader("Location");
if (locationHeader == null) {
sReturn = "";
} else {
sReturn = locationHeader.getValue();
}
if (log.isDebugEnabled()) {
log.debug("##########重定向URL：" + sReturn);
}
return sReturn;
}

      POST请求中文乱码问题在网上搜索了很多方案，都无法解决，
      后来我用HttpAnalyzer分析用浏览器访问正常情况时，发现请求头中包含了三个参数 "Content-Type"、"Accept-Language"、
      "Accept-Encoding"，在httppost中添加请求头加入这几个参数后，发现问题解决了。

      因为和4.0之前的版本比较，发生了很多变化，所以上面的总结对之前的版本不实用。
      需要的jar包：
                    apache-mime4j-0.6.jar
                    commons-codec-1.3.jar
                    commons-logging-1.1.1.jar
                    httpclient-4.0.3.jar
                    httpcore-4.0.1.jar
                    httpmime-4.0.3.jar

**************************************************************************

*******************************htmlcleaner用法****************************
         String sHtml="";//网页内容
         HtmlCleaner cleaner = new HtmlCleaner();
         TagNode rootNode = cleaner.clean(sHtml);
         String XPath="//body//form//input";//用XPath语法来表示具体位置的路径
         Object[] subNodes = rootNode.evaluateXPath(sXPath);
for (int i = 0; i < subNodes.length; i++) {
TagNode inputNode = (TagNode) subNodes[i];
String sName = inputNode.getAttributeByName("name");
String sValue = inputNode.getAttributeByName("value");
}
         需要jar包：
                  htmlcleaner-2.2.jar

**************************************************************************

apache-mime4j-0.6.jar (337 KB)
下载次数: 50

commons-codec-1.3.jar (45.6 KB)
下载次数: 49

commons-logging-1.1.1.jar (59.3 KB)
下载次数: 39

httpclient-4.0.3.jar (286 KB)
下载次数: 64

httpcore-4.0.1.jar (168.8 KB)
下载次数: 62

httpmime-4.0.3.jar (24.9 KB)
下载次数: 50

htmlcleaner-2.2.jar (105.4 KB)
下载次数: 95
本文转自http://huchaoqqqq.iteye.com/blog/1103078

相关阅读:
【slenium专题】Webdriver同步设置
【Selenium专题】WebDriver启动firefox浏览器
【Selenium专题】WebDriver启动Chrome浏览器（二）
【Selenium专题】WebDriver启动Chrome浏览器（一）
Jenkins邮件设置
Jenkins安装笔记
for循环输出i为同一值的问题,SetTimeOut
const、let、var的区别
浏览器title失去焦点时改变title
clone对象或数组

原文地址：https://www.cnblogs.com/wlh652475101/p/3467658.html