python爬虫学习笔记(十二)-爬虫之多线程

python爬虫学习笔记(十二)-爬虫之多线程
1. 如何使用

爬虫使用多线程来处理网络请求，使用线程来处理URL队列中的url，然后将url返回的结果保存在另一个队列中，其它线程在读取这个队列中的数据，然后写到文件中去

2. 主要组成部分

2.1 URL队列和结果队列

将将要爬去的url放在一个队列中，这里使用标准库Queue。访问url后的结果保存在结果队列中

初始化一个URL队列
```
from queue import Queue
urls_queue = Queue()
out_queue = Queue()
```
2.2 请求线程

使用多个线程，不停的取URL队列中的url，并进行处理：
```
import threading

class ThreadCrawl(threading.Thread):
    def __init__(self, queue, out_queue):
        threading.Thread.__init__(self)
        self.queue = queue
        self.out_queue = out_queue

    def run(self):
        while True:
            item = self.queue.get()
```
如果队列为空，线程就会被阻塞，直到队列不为空。处理队列中的一条数据后，就需要通知队列已经处理完该条数据

2.3 处理线程

处理结果队列中的数据，并保存到文件中。如果使用多个线程的话，必须要给文件加上锁
```
lock = threading.Lock()
f = codecs.open('out.txt', 'w', 'utf8')
```
当线程需要写入文件的时候，可以这样处理：
```
with lock:
    f.write(something)
```
3. Queue模块中的常用方法:

Python的Queue模块中提供了同步的、线程安全的队列类，包括FIFO（先入先出)队列Queue，LIFO（后入先出）队列LifoQueue，和优先级队列PriorityQueue。这些队列都实现了锁原语，能够在多线程中直接使用。可以使用队列来实现线程间的同步
- Queue.qsize() 返回队列的大小
- Queue.empty() 如果队列为空，返回True,反之False
- Queue.full() 如果队列满了，返回True,反之False
- Queue.full 与 maxsize 大小对应
- Queue.get([block[, timeout]])获取队列，timeout等待时间
- Queue.get_nowait() 相当Queue.get(False)
- Queue.put(item) 写入队列，timeout等待时间
- Queue.put_nowait(item) 相当Queue.put(item, False)
- Queue.task_done() 在完成一项工作之后，Queue.task_done()函数向任务已经完成的队列发送一个信号
- Queue.join() 实际上意味着等到队列为空，再执行别的操作
相关阅读:
AWS的EC2实例搭建服务器使用stackoverflow教程
 亚马逊云开服之旅
 Linux主机之间ssh免密登录配置方法
 阿里云运维培训讲解
 区块链技术在物流领域应用分析
 公众号页面分享朋友圈后点击跳转到小程序的方法介绍
 数据库主库从库宕机重启后binlog数据同步
 Docker+ElasticSearch+Logstash+Kibana+Filebeat搭建方法
 linux实现磁盘自动挂载脚本
 阿里云ecs基于镜像进行旧服务器迁移到新服务器
原文地址：https://www.cnblogs.com/thresh/p/13348502.html

python爬虫学习笔记(十二)-爬虫之多线程

1. 如何使用

2. 主要组成部分

2.1 URL队列和结果队列

2.2 请求线程

2.3 处理线程

3. Queue模块中的常用方法: