如果你想获取哪个网页的图片,如果你想知道那个网址的美女,还等什么。代码走起:下载即可使用
完成这次瞎爬的原理如下:
第一步:获取html内容
* 第二步:然后在获取的html文本中寻找图片,根据html标记语言不难发现图片通常带有<img>
* 第三步:然后获取img标签信息中找取图片的地址信息,需要构造图片地址的正则表达式
* 第四步:最后通过图片地址信息下载图片
package com.huojg.reptile; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 玩玩爬虫。写个小程序,获取url图片美女 * * 第一步:获取html内容 * 第二步:然后在获取的html文本中寻找图片,根据html标记语言不难发现图片通常带有<img>,所以 * 第三步:然后获取img标签信息中找取图片的地址信息,需要构造图片地址的正则表达式 * 第四步:最后通过图片地址信息下载图片 * */ public class Reptile { // 地址 private static final String URL = "http://www.uml.org.cn/oobject/201104212.asp"; // 2.获取img标签正则 private static final String IMGURL_REG = "<img.*src=(.*?)[^>]*?>"; // 获取src路径的正则 private static final String IMGSRC_REG = "[a-zA-z]+://[^\s]*"; public static void main(String[] args) { try { Reptile cm=new Reptile(); //获得html文本内容 String HTML = cm.getHtml(URL); //获取图片标签 List<String> imgUrl = cm.getImageUrl(HTML); //获取图片src地址 List<String> imgSrc = cm.getImageSrc(imgUrl); //下载图片 cm.Download(imgSrc); }catch (Exception e){ System.out.println("发生错误"); } } //1.获取HTML内容 private String getHtml(String url)throws Exception{ URL url1=new URL(url);//使用java.net.URL URLConnection connection=url1.openConnection();//打开链接 InputStream in=connection.getInputStream();//获取输入流 InputStreamReader isr=new InputStreamReader(in);//流的包装 BufferedReader br=new BufferedReader(isr); String line; StringBuffer sb=new StringBuffer(); while((line=br.readLine())!=null){//整行读取 sb.append(line,0,line.length());//添加到StringBuffer中 sb.append(' ');//添加换行符 } //关闭各种流,先声明的后关闭 br.close(); isr.close(); in.close(); return sb.toString(); } //3.获取ImageUrl地址 private List<String> getImageUrl(String html){ Matcher matcher=Pattern.compile(IMGURL_REG).matcher(html); List<String>listimgurl=new ArrayList<String>(); while (matcher.find()){ listimgurl.add(matcher.group()); } return listimgurl; } //获取ImageSrc地址 private List<String> getImageSrc(List<String> listimageurl){ List<String> listImageSrc=new ArrayList<String>(); for (String image:listimageurl){ Matcher matcher=Pattern.compile(IMGSRC_REG).matcher(image); while (matcher.find()){ listImageSrc.add(matcher.group().substring(0, matcher.group().length()-1)); } } return listImageSrc; } //下载图片 private void Download(List<String> listImgSrc) { try { //开始时间 Date begindate = new Date(); for (String url : listImgSrc) { //开始时间 Date begindate2 = new Date(); String imageName = url.substring(url.lastIndexOf("/") + 1, url.length()); URL uri = new URL(url); InputStream in = uri.openStream(); FileOutputStream fo = new FileOutputStream(new File("D:res/"+imageName));//文件输出流 byte[] buf = new byte[1024]; int length = 0; System.out.println("开始下载:" + url); while ((length = in.read(buf, 0, buf.length)) != -1) { fo.write(buf, 0, length); } //关闭流 in.close(); fo.close(); System.out.println(imageName + "下载完成"); //结束时间 Date overdate2 = new Date(); double time = overdate2.getTime() - begindate2.getTime(); System.out.println("耗时:" + time / 1000 + "s"); } Date overdate = new Date(); double time = overdate.getTime() - begindate.getTime(); System.out.println("总耗时:" + time / 1000 + "s"); } catch (Exception e) { System.out.println("下载失败"); } } }
结果自己去查看吧;
内容分析:
本方法主要的使用jdk中java.net包下的URL与URLConnection两个类完成连接。