• 宽度优先遍历网络爬虫


                 根据一个网页链接,爬取该网页下所有子网页链接,存入一个队列,再从子网页中爬取新的网页链接。

         队列设计 LinkQueue :

            待访问链接队列  :   unVisitedUrl   

            已访问链接队列  :   visitedUrl        

                                         所需实现的具体方法:

                 队列中取出一个链接

                 队列添加链接时判断待访问和已访问队列是否存在此链接

                 队列中移除一个链接

                 获取待访问队列当前大小

                 获取已访问队列当前大小

                 判断队列是否为空

                 

                   网页解析 HtmlUrlParserTool

            获取一个网页的源码:   getUrlIndex  

                 对网页的源码解析获得一个子网页链接队列:    htmlUrlPerser  

              所需实现:

                   网页解析方法 :  jsoup,正则表达式

        网页内容下载 DownLoadFile :

          获取链接对应文件类型(文件后缀) :  getFileNameByUrl    

                                 将文件保存至本地 :    downLoadFile   

                                 所需知识:

                I/O流,正则表达式     

                    爬虫主程序 MyClawler :

          实现: 操作队列,线程化

            

       实现代码如下。

    队列类:LinkQueue

    Queue :

    import java.util.LinkedList;
    
    public class Queue {
        // 队列
        private LinkedList<String> queue = new LinkedList<String>() ;
        // 加入
        public void enQueue(String t){
            queue.addLast(t);
        }
        // 移除
        public String deQueue(){
            return queue.removeFirst();
        }
        public int size(){
            return queue.size();
        }
        // 是否为空     空->true
        public boolean isQueueEmpty(){
            return queue.isEmpty();
        }
        // 是否包含t   包含->true
        public boolean contains(String t){
            return queue.contains(t);
        }
    }

    LinkQueue:

    import java.util.HashSet;
    import java.util.Set;
    
    //  优先队列
    public class LinkQueue {
        private static Set<String> visitedUrl = new HashSet<String>();
        private static Queue unVisitedUrl = new Queue();
        // 获得 URL 队列
        public static Queue getUnVisitedUrl(){
            return unVisitedUrl ;
        }
        // 添加到已访问
        public static void addVisitedUrl(String url){
            visitedUrl.add(url);
        }
        // 移除访问过的 URL
        public static void removeVisitedUrl(String url){
            visitedUrl.remove(url);
        }
        // 未访问过的 URL 出列
        public static String unVisitedUrlDeQueue(){
            return unVisitedUrl.deQueue();
        }
        // 在unVisitedUrl 加入之前判断其中是否有重复的 , 当无重复时才做添加
        public static void addUnvisitedUrl(String url){
            if((!unVisitedUrl.contains(url))&&(url!=null)&&(!visitedUrl.contains(url))){
                unVisitedUrl.enQueue(url);
            }
        }
        // 已访问的数目
        public static int getVisitedUrlNum(){
            return visitedUrl.size();
        }
        // 待访问的数目
        public static int getUnVisitedUrlNum(){
            return unVisitedUrl.size();
        }
        // 判断 待访问队列 是否为空
        public static boolean unVisitedUrlEmpty(){
            return unVisitedUrl.isQueueEmpty();
        }
    }

      网页解析类 HtmlUrlParserTool:

    //  获取该页面所有URL
    
    import org.apache.http.HttpEntity;
    import org.apache.http.HttpHost;
    import org.apache.http.client.config.RequestConfig;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements; 
    public class HtmlUrlParserTool {
    
        // 获取一个 URL 中 所有 子URL
        public static Queue htmlUrlPerser(String url) throws Exception {
            Queue queue = new Queue();  
            String data = new String( "<a href="http:(.*)html>") ; //String n ;  www.cnblogs.com/AWCXV/
            String index = getUrlIndex(url) ;
            Document doc = Jsoup.parse(index);
            Elements elements = doc.select("a");
            for(Element element : elements){
                String aurl = element.attr("href") ;
                if(!queue.contains(aurl)){
                    queue.enQueue(aurl);
                }
            }
            return queue ;
        }
        //  一个URL的解析
        public static String getUrlIndex(String url) throws Exception {
            CloseableHttpClient chc = HttpClients.createDefault() ;
            HttpGet httpGet = new HttpGet(url);
         // 代理IP选择
    //String ip = IPQueue.getIp(); //String []ipArr = ip.split("-"); //System.out.println(ipArr[0]+" "+Integer.parseInt(ipArr[1])); //HttpHost httpHost = new HttpHost(ipArr[0],Integer.parseInt(ipArr[1])); RequestConfig rc = RequestConfig.custom() //.setProxy(httpHost) .setConnectTimeout(10000) .setSocketTimeout(10000) .build(); httpGet.setConfig(rc); CloseableHttpResponse chp = chc.execute(httpGet); HttpEntity he = chp.getEntity(); String index = EntityUtils.toString(he); Document doc = Jsoup.parse(index); Elements elements = doc.getElementsByTag("title"); Element element = elements.get(0); Cnblogs.write(element.text()+" "+url); System.out.println(element.text()+" "+url); chc.close(); return index ; } }

    网页内容下载类 DownLoadFile :

    import java.io.FileOutputStream;
    import java.io.InputStream;
    import java.io.OutputStream;
    import java.net.HttpURLConnection;
    import java.net.URL;
    
    // 下载此 URL 内容
    public class DownLoadFile {
        //  url对应 文件类型名
        public static String getFileNameByUrl(String url) {
            // 移除   http://
            if (url.contains("http://")) {
                url = url.substring(7);
            }
            // 获取文件类型
            return url.replaceAll("[\?/:*|<>"]", "");
        }
        public static String downLoadFile(String url){
            URL u ;
            HttpURLConnection hc ;
            String filePath = "d:\temp\"+getFileNameByUrl(url);
            try{
                u = new URL(url);
                hc = (HttpURLConnection) u.openConnection();
                if(hc.getResponseCode()==200){
                    byte[] bs = new byte[1024];
                    int len ;
                    InputStream is = hc.getInputStream();
                    OutputStream os = new FileOutputStream(filePath);
                    while ((len = is.read(bs)) != -1) {
                        os.write(bs, 0, len);
                    }
                    os.close();
                 }
            }catch (Exception e){
            }
            return filePath ;
        }
    }

         爬虫主类 MyClawler :

    import java.io.File;
    import java.io.FileOutputStream;
    import java.io.OutputStream;
    import java.io.RandomAccessFile;
    
    // 主程序
    class Cnblogs implements Runnable{
        public static void write(String read) throws Exception{
            File f = new File("src\fangwen.txt");
            OutputStream os = new FileOutputStream(f,true);
    
            os.write((read+"
    ").getBytes());
        }
        public  void  run() {
            while (!LinkQueue.unVisitedUrlEmpty()) {
                try{
                    String url = LinkQueue.unVisitedUrlDeQueue();
                    LinkQueue.addVisitedUrl(url);
                    Queue newQ = HtmlUrlParserTool.htmlUrlPerser(url);
                    while(!newQ.isQueueEmpty()){
                        String oneUrl = newQ.deQueue();
                        LinkQueue.addUnvisitedUrl(oneUrl);
                    }
                    System.out.println("线程 : "+Thread.currentThread().getName()+"  已访问数目 :"+LinkQueue.getVisitedUrlNum()+" 待访问队列数目 : "+LinkQueue.getUnVisitedUrlNum());
                    System.out.println();
                }catch (Exception e){
                }finally {
    
                }
            }
        }
    }
    public class MyClawler {
        public static void main(String []args) throws Exception {
            try {
                File f = new File("src\fangwen.txt");
                f.delete();
            }catch (Exception e){
    
            }finally {
                Queue q = HtmlUrlParserTool.htmlUrlPerser("http://www.cnblogs.com/AWCXV/p/7626366.html") ;
                LinkQueue.addVisitedUrl("http://www.cnblogs.com/AWCXV/p/7626366.html");
                while(!q.isQueueEmpty()){
                    String oneUrl = q.deQueue() ;
                    LinkQueue.addUnvisitedUrl(oneUrl);
                }
                //System.out.println("已访问:"+LinkQueue.getVisitedUrlNum());
                int i = 0 ;
                Cnblogs cnblogs = new Cnblogs();
                for(i=0;i<100;i++){
                    new Thread(cnblogs,"线程"+i).start();
                }
            }
        }
    }

    以下是对博客园博客进行宽度互联网遍历爬取的链接:

  • 相关阅读:
    工业互联网网络安全渗透测试技术研究
    ios加固,ios代码混淆,ios代码混淆工具, iOS源码混淆使用说明详解
    Java代码加密,Java加密方式,Java加密使用说明
    移动App安全等级保护建议
    Android APP安全问题应对办法的探讨
    工业互联网环境下的工业控制系统安全防护
    保护IoT设备安全的5种方法
    移动App安全等级保护测评防护要点
    Windows下给IDApro 安装yara-python 和findcrypt
    gradle-下载地址
  • 原文地址:https://www.cnblogs.com/LexMoon/p/javaMyClawler.html
Copyright © 2020-2023  润新知