• 创建虚拟环境和新建工程目录


    一、创建虚拟环境

    virtualenv -p python版本的路径.exe 虚拟环境名称     #新建虚拟环境

    eg:virtualenv -p C:UsersfanlalaAppDataLocalProgramsPythonPython35-32python.exe article_spider   #使用python3.5新建名为article_spider的虚拟环境

     新建完成虚拟环境后,会自动进入虚拟环境。

    在虚拟环境中安装需要的库文件

    如:pip install -i https://pypi.douban.com/simple/ scrapy #使用豆瓣源镜像可以加速安装,对于一些较新的库不适用

    二、新建工程目录

    在CMD中进入到存放工程的目录下后,

    workon 虚拟环境名称 #进入到虚拟环境中

    scrapy startproject ArticleSpider #新建名为ArticleSpider的项目

     生成一个爬虫模板

    前提条件:在新建的工程目录路径下,并且工作与创建的虚拟环境下

    scrapy genspider jobbole blog.jobbole.com  #创建了一个名称为jobbole.py爬虫模板文件,爬虫的起始地址为blog.jobbole.com

    三、pycharm 调试scrapy 执行流程

    新建一个main.py文件:

    from scrapy.cmdline import execute

    import sys

    inport os

    sys.path.append(os.path.dirname(os.path.abspath(__file__)))

    execute(['scrapy','crawl','jobbole']) #启动scrapy

    在cmd中启动scrapy 的命令为:scrapy crawl jobbole #jobbole为爬虫模板.py文件名称

    #encoding=utf-8

    from scrapy.cmdline import execute
    import sys
    import os
    sys.path.append(os.path.dirname(os.path.abspath(__file__))) #工程目录,设置了工程目录启动scrapy才能找到项目
    execute(['scrapy','crawl','jobbole'])

    pycharm中调试运行比较慢,为了加快调试速度,可以在CMD中快速调试 :

    进入到工作目录下,并处于需要的虚拟环境中:

    输入:scrapy shell 调试的网址

    然后进入到调试环境进行快速调试。

  • 相关阅读:
    redis安装以及php扩展
    Linux下php安装Redis扩展
    正则验证邮箱
    常用方法
    PHPExcel说明
    冒泡排序
    CURL post请求
    PHP生成随机字符串
    PHP中的字符串函数
    PHP中的数组函数
  • 原文地址:https://www.cnblogs.com/buzhidaojiaoshenmoleya/p/7309671.html
Copyright © 2020-2023  润新知