HttpComponents是Apache 旗下的项目。其中有一个HttpClient,即HTTP客户端。
...
...
大多时候我们只需要HttpClient,httpCore是开发服务端的我们可以一般都不需要。
之后我们建立项目,导入jar包,开始开发
第一个示例:
package com.zhi.httpClient; import java.io.IOException; import org.apache.http.HttpEntity; import org.apache.http.ParseException; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; public class Demo { public static void main(String[] args) { CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例 //CloseableHttpClient意思是:可关闭的 HttpGet httpGet=new HttpGet("http://www.huimsoft.com"); //2、创建实例 //限制类型http://www.tuicool.com/ CloseableHttpResponse closeableHttpResponse=null; try { closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行 } catch (ClientProtocolException e) { //客户端协议异常 // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { //IO异常 // TODO Auto-generated catch block e.printStackTrace(); } HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体 String str=""; try { str=EntityUtils.toString(httpEntity, "utf-8"); //获取网页内容,并且指定编码 } catch (ParseException e) { //解析异常 // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println(str); //关闭closeableHttpResponse try { closeableHttpResponse.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } //关闭closeableHttpClient try { closeableHttpClient.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
代码有很多,但是很多是在处理异常,所以我们也可以使用throws在方法上抛出,以简化代码格式,让其更好看。
package com.zhi.httpClient; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; public class Test { public static void main(String[] args) throws Exception { CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例 HttpGet httpGet=new HttpGet("http://www.huimsoft.com"); //2、创建请求 CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行 HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体 System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //5、获取网页内容,并且指定编码 closeableHttpResponse.close(); closeableHttpClient.close(); } }
当然我们要封装一个方法,然后使用throws抛出,最好不要在main上直接抛出异常。
其实有些网站读取时是有延时的,这个时候才用try...catch来处理比较好。
HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。
搞爬虫,主要是用HttpClient模拟浏览器请求第三方站点url,然后响应,获取网页数据,然后用Jsoup来提取我们需要的信息。