• scrapy框架安装及创建


    介绍:大而全的爬虫组件

    使用Anaconda

    conda install -c conda-forge scrapy

    一、安装:

    windows

    1.下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    耐心等待网页刷新

    pip3 install -i https://pypi.douban.com/simple wheel
    pip3 install "D:	yped_ast-1.4.0-cp37-cp37m-win_amd64.whl"
    pip3 install -i https://pypi.douban.com/simple pywin32
    pip3 install -i https://pypi.douban.com/simple scrapy

    linux

    pip3 install -i https://pypi.douban.com/simple scrapy

    二、创建

    1.创建项目

    scrapy startproject xx

     目录结构

    scrapy startproject 项目名称
    
    项目名称
        项目名称/
            - spiders                # 爬虫文件 
                ....
            - items.py                 # 持久化
            - pipelines                # 持久化
            - middlewares.py        # 中间件
            - settings.py             # 配置文件(爬虫)
        scrapy.cfg                    # 配置文件(部署)

    2.创建爬虫(根据提示)

    scrapy genspider autohome autohome.com

    3.启动爬虫

    scrapy crawl autohome
    scrapy crawl autohome --nolog # 不打印日志

    查看不同等级的日志

    scrapy crawl quotes -L INFO

     直接开启爬虫

    scrapy runspider <spider_file.py>

    调试

    scrapy shell url

    shell url的响应的html是: response

    下载

    scraopy view url
  • 相关阅读:
    Nginx原理入门教程
    MSDN原版系统镜像ISO下载站
    JWT跨域身份验证解决方案
    PHP获取毫秒时间戳
    IDCode校验算法
    PurpleAir空气质量数据采集
    检测微信好友是否删除自己
    京东联盟开发(13)——获取官方活动推广数据
    微信二维码标准
    车牌号正则表达式
  • 原文地址:https://www.cnblogs.com/wt7018/p/11723200.html
Copyright © 2020-2023  润新知