• 基于redis的简易分布式爬虫框架


    代码地址如下:
    http://www.demodashi.com/demo/13338.html

    开发环境

    • Python 3.6
    • Requests
    • Redis 3.2.100
    • Pycharm(非必需,但可能出现bug)

    运行环境

    Win 10 + Redis 3.2.100(已测试)
    Mac + Redis 3.2.11(已测试)
    redis配置问题,请自行百度或者谷歌。

    实现功能

    分布式爬虫,可并发

    需求分析

    作为一个分布式爬虫框架,方便的部署到多个环境上,快速的获取数据,简易的使用,
    在运行中忽略某些错误,以及在遇到某些情况时停止抓取,管理者强制停止爬虫时可以
    将正在进行的线程进行完等,个人理解中大体需求如此。

    程序实现

    • 目前程序算是基础版本(0.1?赫赫),实现了如下功能:
      1. 分布式: 只需要一台redis服务器,其余爬虫链接到服务器获取url进行数据采集即可。
      2. 部署方便: 文件夹copy一下就行,python本身就可以跨平台进行运转。
      3. 快速获取数据: 下载使用的是requests库,快慢完全凭借自己,调整settings.py中的delay以及max_threads就行。
      4. 使用简单: 继承一下爬虫类,写个解析函数,跟scrapy类似,简化版。
      5. 错误处理: 目前除了ctrl+C和关闭窗口以外,只有level_time到了才能停止程序。
      6. 停止处理: ctrl+c后会完成线程后再停止。
      7. 统计: 目前只统计进行了多少次抓取,没有计算成功与失败次数。
      8. 日志: 部分情况会纪录日志,不过比较少,不过可以自己定制。
      9. 代理: 代理和headers可设置。
    • 代码结构:
      • __init__.py 初始化文件,实例化日志
      • download.py 下载器类
      • scheduler.py 调度器类(虽然功能不全)
      • settings.py 默认设置
      • spider.py 爬虫类
      • logs.log 日志文件
      • example.py 示例
      • README.md 说明
      • 截图
        项目结构截图
    • 部分源码展示:
    # download.py
    class DOWNLOAD:
    
        def __init__(self, proxy=None, delay=DELAY, num_retries=NUM_RETRIES,
                     timeout=TIMEOUT, headers=HEADERS, **kwargs):
            """
            初始化
            :param proxy: 下载时使用的代理
            :param delay:  下载延迟
            :param timeout: 下载超时时间
            :param headers: 下载时使用的文件头
            :param num_retries: 下载重试次数
            :param kwargs:  其他
            """
            self.proxy = proxy
            self.timeout = timeout
            self.headers = headers or {'User-agent': 'OSpider'}
            self.logging = logger
            self.throttle = Throttle(delay)
            self.num_retries = num_retries
            self.kwargs = kwargs
        
        def __call__(self, url, method='GET', data=None, cookies=None, **kwargs):
            """
            这个魔法函数可以让类的实例像函数一样被调用,例如:
            D = DOWNLOAD(...)
            result = D(url)
            :param url:  url
            :param method:  请求的方法
            :param data:    请求的内容
            :param cookies: 请求时使用的cookies
            :param kwargs:  其他,比如代理
            :return: {'html': 网页内容, 'status': 状态码, 'url': 请求地址}
            """
            # 设置同个域下的限速
            self.throttle.wait(url)
            # 让类的实例返回download函数的返回值
            return self.download(url, method, data, cookies)
        
        def download(self, url, method='GET', data=None, cookies=None):
            """
            具体下载用函数
            :param url: 请求地址
            :param method: 请求方法
            :param data: 请求附带的内容
            :return: {'html': 网页内容, 'status': 状态码, 'url': 请求地址}
            """
            methods = ["GET", "POST", "PUT", "DELETE"]
            session = requests.Session()
            # 设置头信息
            session.headers = self.headers
            # 设置代理
            if self.proxy:
                if isinstance(self.proxy, dict):
                    if self.proxy.get('http') or self.proxy.get('https'):
                        session.proxies = self.proxy
                        self.logging.info('设置代理:{}'.format(self.proxy))
                else:
                    self.logging.error('代理格式错误,需要使用字典格式')
            # 检查请求方法
            if method not in methods:
                raise ValueError("请求方法错误, 请在{}中选择!".format(methods))
            # 设置cookies
            if cookies:
                session.cookies = cookies
            # 获取内容并返回
            try:
                res = session.request(method, url, data=data)
                html = res.text
                status = res.status_code
            # 出现问题打印到日志,然后重试num_retries次
            except Exception as e:
                html = ''
                if hasattr(e, 'code'):
                    code = e.code
                    if self.num_retries > 0 and 500 <= code < 600:
                        self.num_retries -= 1
                        return self.download(url, method, data, cookies)
                else:
                    code = None
                self.logging.error(e)
                html = None
                status = None
            return {'html': html, 'status': status, 'url': url}
    
    # Scheduler.py
    """
        SCHEDULER(调度器) 目前只有抓取然后返回结果的功能.....
    """
    # 初始化就略过了,选了两个较重要的放了上来
    # 使用threading达成了并发抓取,因为是密集型IO所以影响不大。
    def run(self):
        """开始进行抓取"""
        threads = []
        wait = 0
        try:
            while True:
                num = self.show_num()
                if num is None or num == 0:
                    print('抓捕队列为空!{}秒后继续抓取'.format(self.wait_time))
                    time.sleep(self.wait_time)
                    wait += self.wait_time
                    if wait >= self.leave_time:
                        print('{}秒内获取不到url,程序终端'.format(self.leave_time))
                        break
                    continue
                for thread in threads:
                    if not thread.is_alive():
                        # 移除停止活动的线程
                        threads.remove(thread)
                # 如果活动的线程数没有到达最大线程就继续创建线程
                while len(threads) < self.max_threads:
                    thread = threading.Thread(target=self.crawl)
                    thread.setDaemon(True)
                    thread.start()
                    threads.append(thread)
                time.sleep(3)
        # 按了CTRL+c之后....
        except KeyboardInterrupt:
            self.leave_time = 0
            # 等待线程结束然后移除还在活动的线程
            for thread in threads:
                thread.join()
                if thread.is_alive():
                    threads.remove(thread)
            print('程序停止!')
            print('花费时间{}'.format(datetime.now() - self.start_time))
            print('采集了{}个url'.format(self.start_num - self.show_num()))
            
    def crawl(self):
        """抓取流程控制函数"""
        while True:
            # 设置一个可以在外部控制循环结束的条件
            if self.leave_time == 0:
                break
            url = self.get_url()
            if url is None:
                break
            res = self.D(url, **self.kwargs)
            if self.callback:
                self.callback(response=res)
            else:
                pprint('没有解析函数,直接打印结果:')
                pprint(res)
    

    程序使用方法以及截图

    首先需要一台已经开启redis服务的主机。
    然后进入settings进行配置
    之后如下:

    # 例子
    # example.py
    import json
    import redis
    from OSpider import OSPIDER, logger
    
    # 继承爬虫类
    class T(OSPIDER):
        # 创建一个存储用的redis链接
        r = redis.StrictRedis()
        # 爬虫类中也有一个解析函数,这个函数有一个要求,有个参数必须名为response
    
        def parse(self, response):
            # 例子中采集的url是知乎的api,返回一个json数据,所以比较简单。
            # 这里也就是获取了一下url_token,其实是无意义行为,举例用。
            try:
                res = json.loads(response['html'])
                self.r.lpush('zhihu.url_token', res['url_token'])
                print(res['name'])
            except Exception:
                # 导入的logger用的是自带的logging模块,日志同时会打印到屏幕以及日志文件中去。
                logger.info("{}--出现错误,状态码--{}"
                            .format(response['url'], response['status']))
    
    
    if __name__ == '__main__':
        # 运行....
        t = T()
        t.run()
    

    例子只是打印了用户名以及存储了url_token
    运行效果
    展示

    其它

    如果出现 ModuleNotFoundError: No module named 'OSpider'
    在前几行加入

    try:
        import OSpider
    except:
        import sys
        import os
        sys.path.append(os.path.abspath('..'))
    

    个人试做,如有BUG,请反馈。

    基于redis的简易分布式爬虫框架

    代码地址如下:
    http://www.demodashi.com/demo/13338.html

    注:本文著作权归作者,由demo大师代发,拒绝转载,转载需要作者授权

  • 相关阅读:
    UIButtonIOS开发
    SharePoint Server 2007 SP1 已发布
    SharePoint 2007 External Binary Storage Component Preview 发布
    WSS 3.0 & MOSS 2007 SDK 1.1
    SharePoint工作流(ASP.NET表单版)教学视频
    Finally...
    Windows SharePoint Services 3.0 "Visual How Tos" 视频系列
    SharePoint 补丁
    在SharePoint Workflow中使用InfoPath Form的几个Tips
    对于Office Open XML文档格式,请发表您的看法
  • 原文地址:https://www.cnblogs.com/demodashi/p/9443032.html
Copyright © 2020-2023  润新知