1.图虫网多线程爬取-写在前面
经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy
啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写完,常见的反反爬后面也会写的,还有fuck login类的内容。
2.图虫网多线程爬取-爬取图虫网
为什么要爬取这个网站,不知道哎~ 莫名奇妙的收到了,感觉图片质量不错,不是那些妖艳贱货
可以比的,所以就开始爬了,搜了一下网上有人也在爬,但是基本都是py2,py3的还没有人写,所以顺手写一篇吧。
3.图虫网多线程爬取-起始页面
https://tuchong.com/explore/
这个页面中有很多的标签,每个标签下面都有很多图片,为了和谐,我选择了一个非常好的标签花卉
你可以选择其他的,甚至,你可以把所有的都爬取下来。
https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/ # 花卉编码成了 %E8%8A%B1%E5%8D%89 这个无所谓
我们这次也玩点以前没写过的,使用python中的queue,也就是队列
下面是我从别人那顺来的一些解释,基本爬虫初期也就用到这么多
1. 初始化: class Queue.Queue(maxsize) FIFO 先进先出
2. 包中的常用方法:
- queue.qsize() 返回队列的大小
-