• Scrapy安装和项目创建


    安装说明

    scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。

    参考信息:Python3.6,Windows10 64位

    相关软件下载:

    链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZExJac4w
    提取码:jv54

    环境准备

    安装 Microsoft Visual C++ 14.0

    升级pip版本

    Python pip install --upgrade pip --force-reinstall
    

    安装第三方库(CMD命令)

    在线安装

    使用默认镜像网址安装(下载较慢)
    pip install 库名
    
    使用豆瓣镜像安装
    pip --default-timeout=100  install 库名 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    

    离线安装

    Python第三库下载网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

    安装解析离线库的第三方库
    pip --default-timeout=100  install wheel -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    
    pip install 本地离线库完整路径(不能有中文)
    

    安装scrapy所需的库

    pip --default-timeout=100  install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    pip --default-timeout=100  install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    pip --default-timeout=100  install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    pip --default-timeout=100  install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    pip --default-timeout=100  install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    pip --default-timeout=100  install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    

    创建爬虫项目

    打开CMD
    
    进入需要创建项目的文件夹
    
    创建项目
    scrapy startproject 项目名
    

    2019-08-24_18-58-00

    使用Pycharm打开项目

    2019-08-24_18-49-27

    自动生成爬虫文件

    打开Pycharm自带的CMD输入
    baiduSpider:爬虫名  www.baidu.com:爬取的网站
    Scrapy genspider baiduSpider www.baidu.com
    

    2019-08-24_18-56-17

    运行爬虫项目

    通过命令运行

    baiduSpider:爬虫名
    scrapy crawl baiduSpider
    

    2019-08-24_19-18-02

    使用Python脚本运行

    在spiderDM目录创建一个Run.py文件输入如下代码

    from scrapy import cmdline
    cmdline.execute("scrapy crawl baiduSpider".split(" "))
    

    运行Run.py文件就可以运行 baiduSpider爬虫

  • 相关阅读:
    JavaWeb-对象增强的方式
    JavaWeb-dbcp连接池
    eclipse发送音频等大数据包到数据库的异常解决方案
    JDBC-prepareStatement预编译
    JDBC原理
    JDBC入门
    当我们说前端,我们在说什么?
    markdown上下左右,跳至行尾行首,重设快捷键
    web API简介(四):客户端储存之IndexedDB API
    过年搭出租车攻略
  • 原文地址:https://www.cnblogs.com/studyNotesSL/p/11409546.html
Copyright © 2020-2023  润新知