• python爬虫学习笔记(十二)-爬虫之多线程


    1. 如何使用

    爬虫使用多线程来处理网络请求,使用线程来处理URL队列中的url,然后将url返回的结果保存在另一个队列中,其它线程在读取这个队列中的数据,然后写到文件中去

    2. 主要组成部分

    2.1 URL队列和结果队列

    将将要爬去的url放在一个队列中,这里使用标准库Queue。访问url后的结果保存在结果队列中

    初始化一个URL队列

    from queue import Queue
    urls_queue = Queue()
    out_queue = Queue()
    

    2.2 请求线程

    使用多个线程,不停的取URL队列中的url,并进行处理:

    import threading
    
    class ThreadCrawl(threading.Thread):
        def __init__(self, queue, out_queue):
            threading.Thread.__init__(self)
            self.queue = queue
            self.out_queue = out_queue
    
        def run(self):
            while True:
                item = self.queue.get()
    

    如果队列为空,线程就会被阻塞,直到队列不为空。处理队列中的一条数据后,就需要通知队列已经处理完该条数据

    2.3 处理线程

    处理结果队列中的数据,并保存到文件中。如果使用多个线程的话,必须要给文件加上锁

    lock = threading.Lock()
    f = codecs.open('out.txt', 'w', 'utf8')
    

    当线程需要写入文件的时候,可以这样处理:

    with lock:
        f.write(something)
    

    3. Queue模块中的常用方法:

    Python的Queue模块中提供了同步的、线程安全的队列类,包括FIFO(先入先出)队列Queue,LIFO(后入先出)队列LifoQueue,和优先级队列PriorityQueue。这些队列都实现了锁原语,能够在多线程中直接使用。可以使用队列来实现线程间的同步

    • Queue.qsize() 返回队列的大小
    • Queue.empty() 如果队列为空,返回True,反之False
    • Queue.full() 如果队列满了,返回True,反之False
    • Queue.full 与 maxsize 大小对应
    • Queue.get([block[, timeout]])获取队列,timeout等待时间
    • Queue.get_nowait() 相当Queue.get(False)
    • Queue.put(item) 写入队列,timeout等待时间
    • Queue.put_nowait(item) 相当Queue.put(item, False)
    • Queue.task_done() 在完成一项工作之后,Queue.task_done()函数向任务已经完成的队列发送一个信号
    • Queue.join() 实际上意味着等到队列为空,再执行别的操作
  • 相关阅读:
    redhat6.4 数据包无法到达
    hibernate-Table 'XXX.XXX' doesn't exist
    LeetCode 之 TwoSum
    vim 中的常用编辑
    linux sed 批量替换多个文件中的字符串
    RedHat 6.4企业版利用iso镜像做本地yum源
    win7 vmware虚拟机上网设置
    virtualbox ubuntu下ssh连接
    Source Insight 插件
    非递归排序
  • 原文地址:https://www.cnblogs.com/thresh/p/13348502.html
Copyright © 2020-2023  润新知