• scrapy 简单介绍


    这篇主要介绍的是在Windows环境安装scrapy以及用创建一个spider

    一 ,  install Scrapy(首先检查Python环境 , 现在安装Python的时候一般都会自动安装pip,pip会用的比较多,没有安装的可以在百度的介绍下安装)

             1. 安装pywin32

                 打开CMD  , 输入  pip install pywin32

                 这个是安装pywin32库的语法 , 这个安装一般会成功 , 如果失败 , 请百度 。 

            2.安装pyOPENSSL

                接着上面输入 pip install pyOPENSSL

                一般不会报错

            3.安装 lxml

                输入  pip install lxml

            4.安装scrapy 

                输入 pip install scrapy

                一般会报 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

                把错误提示贴到百度 , 会有解决办法 , 最后的结果是下一个whl文件 , 然后去安装它 , 完成后再次pip install scrapy , 一般来说就不会出错了 。

    二 ,create spider

           1, create scrapy project 

                在CMD中跳到想要保存文件的目录下

                输入  scrapy startproject   yourProjectName

          2.,create spider

               进入yourProjectName文件夹

               输入scrapy genspider yourSpiderName  yourSpiderName.com

         3,最后找一个Python开发工具打开写代码就可以了,我用的是VSCODE。

              爬虫主体代码应该在spider目录下yourSpiderName.py文件里编写

              settings.py  这个文件比较重要 , 里面有很多关于爬虫的设置 , 比如设置agent等 。里面设置搜索百度,介绍会比较详细。

        4.最后就是执行这个spider

              在CMD中打开该目录输入         scrapy crawl  yourSpiderName 就可以执行这个spider了

    三, 总结

          1.基本上介绍的知识和步骤都比较基础 ,  但是只有了解这些基础后才可以向深处发展 。

          2.关于内容检索我用的是BS4这个库 , 挺好用 , 可以去官网查它的详细介绍 。 

    如有错误 , 请留言 。

    希望这篇文章能够帮助到你 : ) 

           

  • 相关阅读:
    Android笔记:数据储存
    Android笔记:管理所有活动
    Android随笔:属性
    Android笔记:限定符
    Android笔记:ninepatch
    Android笔记:获取屏幕信息
    js自动完成
    动态生成实体类
    EF框架学习手记
    js遮罩效果
  • 原文地址:https://www.cnblogs.com/GaryNie/p/10407840.html
Copyright © 2020-2023  润新知