• python爬虫---scrapy的基本语法


    1.创建爬虫: 

      scrapy genspider爬虫名 域名

      注意:爬虫的名字不能和项目名相同

    2.  scrapy list    --展示爬虫应用列表

       scrapy crawl爬虫应用名称     ---运行单独爬虫应用

       使用scrapy框架爬取糗事百科段子:

          使用命令创建一个爬虫:

           scrapy gensipder qsbk ''qiushibaike.com''

          创建一个名字叫做qsbk的爬虫,并且能爬取的网页只会限制在qiushibaike.com这个域名下。

    3.  name:这个爬虫的名字,名字必须是唯一的。

       allow_domains:允许的域名。爬虫只会爬取这个域名下的网页,其他不是这个域名的网页会被自动忽略。

        start_urls:爬虫从这个变量中的url开始。

        parse:引擎会吧下载器下载回来的数据扔给爬虫解析,爬虫在吧数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个,第一个是提取想要的数据。第二个是生产下一个请求的url.

  • 相关阅读:
    创建进程
    进程
    操作系统历史
    socket
    网络基础
    常用模块二:hashlib、configparser、logging
    常见正则匹配
    类中的内置方法(魔法方法、双下方法)
    反射、isinstance和issubclass
    封装、继承、多态
  • 原文地址:https://www.cnblogs.com/zgl19991001/p/10724698.html
Copyright © 2020-2023  润新知