如何创建一个Scrapy的框架
#TestOne是名字
scrapy startproject TestOne
在spiders子目录中创建一个爬虫文件
# spiderName 名字
# www.xxx.com起始url
scrapy genspider spiderName www.xxx.com
执行工程的指令
#spiderName是在spiders子目录中创建一个爬虫文件的名字
scrapy crawl spiderName
#取消打印日志,会取消报错,报错返回的是空
scrapy crawl spiderName -nolog
#!!!但是,在配置文件settings.py文件中添加参数
#显示指定类型的日志信息
LOG_LEVEL="ERROR"
#在配置文件settings.py文件中修改参数
是否遵从robotst协议
ROBOTSTXT_OBEY = False
scrapy创建好的spiders子目录中创建好的爬虫文件内容
import scrapy
class FirstSpider(scrapy.Spider):
#爬虫文件的名称:就是爬虫源文件唯一标识
name = 'first'
#允许的域名:用来限制start_urls那些url可以进行请求发送
allowed_domains = ['www.baidu.com','https://www.sogou.com/',]
#启始url的列表:该列表存放的url会被scrapy自动请求发送
start_urls = ['http://www.baidu.com/',
'https://www.sogou.com/',]
#用于数据解析:response参数表示就是请求成功后对应的响应对象
def parse(self, response):
print(response)