scrapy介绍
通用的网络爬虫框架
架构介绍(框架)
一、scrapy执行流程
五大组件
-引擎(EGINE):大总管,负责控制数据的流向
-调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重
-下载器(DOWLOADER):用于下载网页内容, 并将网页内
容返回给EGINE,下载器是建立在twisted这个高效的异步模型上的
-爬虫(SPIDERS):开发人员自定义的类,用来解析responses,并且提取items,或者发送新的请求request
-项目管道(ITEM PIPLINES):在items被提取后负责处理它们,主要包括清理、验证、持久化(比如存到数据库)等操作
两大中间件
-爬虫中间件:位于EGINE和SPIDERS之间,主要工作是处理SPIDERS的输入和输出(用的很少)
-下载中间件:引擎和下载器之间,加代理,加头,集成selenium
二、scrapy的安装
pip3 install scrapy
三、scrapy创建项目,创建爬虫,运行爬虫
创建项目
scrapy startproject 项目名
scrapy startproject firstscrapy
# cd到指定目录,再创
创建爬虫
scrapy genspider 爬虫名 爬虫地址
scrapy genspider chouti dig.chouti.com
一执行就会在spider文件夹下创建出一个py文件,名字叫chouti
运行爬虫
scrapy crawl chouti # 带运行日志
scrapy crawl chouti --nolog # 不带日志
-在项目路径下新建一个main.py,再运行main.py即可
from scrapy.cmdline import execute
execute(['scrapy','crawl','chouti','--nolog'])
四、目录介绍
# 目录介绍
firstscrapy # 项目名字
firstscrapy # 包
-spiders # 所有的爬虫文件放在里面
-baidu.py # 一个个的爬虫(以后基本上都在这写东西)
-chouti.py
-middlewares.py # 中间件(爬虫,下载中间件都写在这)
-pipelines.py # 持久化相关写在这(items.py中类的对象)
-main.py # 自己加的,执行爬虫
-items.py # 一个一个的类,
-settings.py # 配置文件
scrapy.cfg # 上线相关
五、settings简单介绍
1 默认情况,scrapy会去遵循爬虫协议
2 修改配置文件参数,强行爬取,不遵循协议
-ROBOTSTXT_OBEY = False
3 USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
4 LOG_LEVEL='ERROR'
六、scrapy的数据解析
#xpath:
-response.xpath('//a[contains(@class,"link-title")]/text()').extract() # 取文本
-response.xpath('//a[contains(@class,"link-title")]/@href').extract() #取属性
#css
-response.css('.link-title::text').extract() # 取文本
-response.css('.link-title::attr(href)').extract_first() # 取属性
七、持久化储存
#1 方案一:parser函数必须返回列表套字典的形式(了解)
scrapy crawl chouti -o chouti.csv
#2 方案二:高级,pipline item存储(mysql,redis,文件)
-在Items.py中写一个类
-在spinder中导入,实例化,把数据放进去
item['title']=title
item['url']=url
item['photo_url']=photo_url
yield item
-在setting中配置(数字越小,级别越高)
ITEM_PIPELINES = {
'firstscrapy.pipelines.ChoutiFilePipeline': 300,
}
-在pipelines.py中写ChoutiFilePipeline
-open_spider(开始的时候)
-close_spider(结束的时候)
-process_item(在这持久化)
实战:爬取抽屉热点新闻网
chouti.py
import scrapy
from firstscrapy.items import ChoutiItem
class ChoutiSpider(scrapy.Spider):
name = 'chouti'
allowed_domains = ['dig.chouti.com']
start_urls = ['http://dig.chouti.com/']
def parse(self, response):
# 获取div列表
div_list = response.xpath('//div[contains(@class,"link-item")]')
for div in div_list:
# 从item中导入 并实例化(类似于django中的models)
item = ChoutiItem()
title = div.css('.link-title::text').extract()[0] # 由于extract得到的是一个列表
url = div.css('.link-title::attr(href)').extract()[0] # 两种方法都可以
photo_url = div.css('.image-scale::attr(src)').extract_first()
# 由于有些热点没有图片
if not photo_url:
photo_url = ''
item['url'] = url
item['title'] = title
item['photo_url'] = photo_url
yield item
piplines.py
import pymysql
class ChoutiMysqlPipeline:
def open_spider(self, spider):
self.conn = pymysql.connect(host='127.0.0.1', user='root', password="123",
database='news', port=3306)
def process_item(self, item, spider):
cursor = self.conn.cursor()
sql = 'insert into article (title,url,photo_url)values(%s,%s,%s)'
cursor.execute(sql, [item['title'], item['url'], item['photo_url']])
self.conn.commit()
return item
def close_spider(self, spider):
self.conn.close()
items.py
import scrapy
class ChoutiItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
url = scrapy.Field()
photo_url = scrapy.Field()