• 构建一个给爬虫使用的代理IP池


    做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

    代理IP的获取,可以从以下几个途径得到:

    • 从免费的网站上获取,质量很低,能用的IP极少
    • 购买收费的代理服务,质量高很多
    • 自己搭建代理服务器,稳定,但需要大量的服务器资源。

    本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后,再做检查判断IP是否可用,可用的话就存放到MongoDB中,最后展示到前端的页面上。

    获取可用Proxy

    获取代理的核心代码是ProxyManager,它采用RxJava2来实现,主要做了以下几件事:

    1. 创建ParallelFlowable,针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学,可以看我之前的文章RxJava 之 ParallelFlowable
    Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                    .parallel()
    1. 针对每一个页面进行抓取,返回List<Proxy>

      map(new Function<String, List<Proxy>>() {
                      @Override
                      public List<Proxy> apply(String s) throws Exception {
      
                          try {
                              return new ProxyPageCallable(s).call();
                          } catch (Exception e) {
                              e.printStackTrace();
                          }
      
                          return null;
                      }
                  })
    2. 对每一个页面获取的代理IP列表进行校验,判断是否可用

      flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                      @Override
                      public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {
      
                          if (proxies == null) return null;
      
                          List<Proxy> result = proxies
                                  .stream()
                                  .parallel()
                                  .filter(new Predicate<Proxy>() {
                              @Override
                              public boolean test(Proxy proxy) {
      
                                  HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                  return HttpManager.get().checkProxy(httpHost);
                              }
                          }).collect(Collectors.toList());
      
                          return Flowable.fromIterable(result);
                      }
                  })
    3. 依次保存到proxyList
      subscribe(new Consumer<Proxy>() {
                      @Override
                      public void accept(Proxy proxy) throws Exception {
                          log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                          proxy.setLastSuccessfulTime(new Date().getTime());
                          ProxyPool.proxyList.add(proxy);
                      }
                  });

    附上完整的流程图
    ProxyPool流程.png

    再附上完整的ProxyManager代码:

    import com.cv4j.proxy.domain.Proxy;
    import com.cv4j.proxy.http.HttpManager;
    import com.cv4j.proxy.task.ProxyPageCallable;
    import io.reactivex.Flowable;
    import io.reactivex.functions.Consumer;
    import io.reactivex.functions.Function;
    import lombok.extern.slf4j.Slf4j;
    import org.apache.http.HttpHost;
    import org.reactivestreams.Publisher;
    import org.springframework.stereotype.Component;
    
    import java.util.Date;
    import java.util.List;
    import java.util.function.Predicate;
    import java.util.stream.Collectors;
    
    /**
     * Created by tony on 2017/10/25.
     */
    @Slf4j
    @Component
    public class ProxyManager {
    
        /**
         * 抓取代理,成功的代理存放到ProxyPool中
         */
        public void start() {
    
            Flowable.fromIterable(ProxyPool.proxyMap.keySet())
                    .parallel()
                    .map(new Function<String, List<Proxy>>() {
                        @Override
                        public List<Proxy> apply(String s) throws Exception {
    
                            try {
                                return new ProxyPageCallable(s).call();
                            } catch (Exception e) {
                                e.printStackTrace();
                            }
    
                            return null;
                        }
                    })
                    .flatMap(new Function<List<Proxy>, Publisher<Proxy>>() {
                        @Override
                        public Publisher<Proxy> apply(List<Proxy> proxies) throws Exception {
    
                            if (proxies == null) return null;
    
                            List<Proxy> result = proxies
                                    .stream()
                                    .parallel()
                                    .filter(new Predicate<Proxy>() {
                                @Override
                                public boolean test(Proxy proxy) {
    
                                    HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());
                                    return HttpManager.get().checkProxy(httpHost);
                                }
                            }).collect(Collectors.toList());
    
                            return Flowable.fromIterable(result);
                        }
                    })
                    .sequential()
                    .subscribe(new Consumer<Proxy>() {
                        @Override
                        public void accept(Proxy proxy) throws Exception {
                            log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());
                            proxy.setLastSuccessfulTime(new Date().getTime());
                            ProxyPool.proxyList.add(proxy);
                        }
                    });
        }
    }

    定时任务

    每隔几个小时跑一次定时任务,在抓取完任务之后先删除旧的数据,然后再把新的数据插入到MongoDB中。

    import com.cv4j.proxy.ProxyManager;
    import com.cv4j.proxy.ProxyPool;
    import com.cv4j.proxy.dao.ProxyDao;
    import com.cv4j.proxy.domain.Proxy;
    import com.safframework.tony.common.utils.Preconditions;
    import org.springframework.beans.factory.annotation.Autowired;
    import org.springframework.scheduling.annotation.Scheduled;
    import org.springframework.stereotype.Component;
    
    import java.util.concurrent.CopyOnWriteArrayList;
    
    /**
     * Created by tony on 2017/11/22.
     */
    @Component
    public class ScheduleJobs {
    
        @Autowired
        ProxyDao proxyDao;
    
        @Autowired
        ProxyManager proxyManager;
    
        /**
         * 每六个小时跑一次任务
         */
        @Scheduled(cron = "0 0 */6 * * ?")
        public void cronJob() {
            System.out.println("Job Start...");
    
            proxyManager.start();
    
            CopyOnWriteArrayList<Proxy> list = ProxyPool.proxyList;
    
            // 先删除旧的数据
            proxyDao.deleteAll();
    
            // 然后再进行插入新的proxy
            if (Preconditions.isNotBlank(list)) {
    
                for (Proxy p:list) {
    
                    proxyDao.saveProxy(p);
                }
            }
    
            System.out.println("Job End...");
        }
    }

    展示到前端

    整个项目使用Spring Boot搭建,运行起来之后本地访问地址:
    http://localhost:8080/load?pagename=proxy_list

    预览效果如下:
    代理列表.jpeg

    在使用前,还可以再做一次检测,只要双击某个代理IP即可。
    检测某个代理.jpeg

    在第二次检测时,对于已经失效的IP会被ProxyPool删除。

    总结

    在做爬虫时,自己维护一个可用的代理IP池是很有必要的事情,当然想要追求更高稳定性的代理IP还是考虑购买比较好。

    最后,附上github地址:
    https://github.com/fengzhizi715/ProxyPool

  • 相关阅读:
    MySQL 中now()时间戳用法
    ajax local.href不跳转的原因之一
    Call to a member function select() on string错误
    TP框架中ajax post请求时提示404
    TP框架中field查询字段
    jQuery如何获得select选中的值?input单选radio选中的值
    TP框架中session操作
    InnerHtml() 与html( )的区别
    C++开源项目等收集
    RCU-数据库初始化参数
  • 原文地址:https://www.cnblogs.com/zhuyeshen/p/12080558.html
Copyright © 2020-2023  润新知