• scrapy (四)基本配置


    scrapy使用细节配置

    一、建立项目

    1scrapy startproject 项目名字

    2、进入项目:

      scrapy genspider 名字 不带http的根网址

    3、默认模板(或改变模板)

    默认模板:class HuaSpider(scrapy.Spider)

    改变模板scapy genspider -t crwal 名字(hua2) 不带http的根网址:

    (class Hua2Spider(CrawlSpider)

    4、目录结构

    wps56D1.tmp 

     

    二、setting基本设置

    1、log日志输出的级别:

          INFOERROR......

          LOG_LEVEL = 'ERROR'

    2、将log写到文件中(自动创建log.txt

            LOG_FILE = './log.txt'

    3robots

           是否遵守各大网站的爬虫规则(robots),默认是True,为了得到我们想要的数据,设置ROBOTSTXT_OBEYF     alse: ROBOTSTXT_OBEY = False

           查看各大网站的规则:根网址+/robots.txt,例如https://www.baidu.com/robots.txt

    4、设置代理middlewares.py

    下载中间件设置:

        1) setting中打开以下配置

    DOWNLOADER_MIDDLEWARES = {

       'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

    }

        2)middlewares.py中添加代理

    class PostprojectDownloaderMiddleware(object):

    def process_request(self, request, spider):

    公开代理格式:request.meta['proxy'] ='http://ip:port'

    私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'

     

    wps56D2.tmp 

     

    3)回到setting,解开下载中间件DOWNLOADER_MIDDLEWARES

     

    wps56D3.tmp 

     

     

    欢迎关注小婷儿的博客:

    csdnhttps://blog.csdn.net/u010986753

    博客园:http://www.cnblogs.com/xxtalhr/

     

    有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ 87605025

     

    OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

    OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

     

    小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

    小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

    小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

    重要的事说三遍。。。。。。

     

     

        wps56D4.tmp    wps56D5.tmp

     

  • 相关阅读:
    二叉搜索树
    稀疏图(邻接链表),并查集,最短路径(Dijkstra,spfa),最小生成树(kruskal,prim)
    稠密图(邻接矩阵),并查集,最短路径(Dijkstra,spfa),最小生成树(kruskal,prim)
    图算法模版
    图算法(邻接矩阵)
    win764位安装DataFactory出现的问题
    使用SQL SERVER需要注意的一些细节
    索引维护存储过程(作业调用)
    收缩日志文件夹
    查看数据库资源被占情况(锁)
  • 原文地址:https://www.cnblogs.com/pythonbao/p/9169484.html
Copyright © 2020-2023  润新知