• scrapy爬虫初体验


    scrapy是一个python的爬虫框架,用于提取结构性数据。在这次宝贝计划1的项目中要用到一些数据。但四处联系后各方可能因为一些隐私问题不愿提供数据信息。这样我们只能自己爬取,存入数据库,再进行调用。

    1.创建一个Scrapy项目:

    scrapy startproject bback
    

    执行命令创建项目后会自动生成一些文件如下:

    • scrapy.cfg: 项目的配置文件
    • bback/: 该项目的python模块。之后您将在此加入代码。
    • bback/items.py: 项目中的item文件.
    • bback/pipelines.py: 项目中的pipelines文件.
    • bback/settings.py: 项目的设置文件.
    • bback/spiders/: 放置spider代码的目录.

    2.定义提取的Item
    Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
    Item 配置如下

    from scrapy.item import Item,Field
    class BbackItem(Item):
        # define the fields for your item here like:
        # name = scrapy.Field()
        name=Field()
    

    3.编写爬虫(Spider)
    Spider是用户编写用于从网站爬取数据的类。
    其包含了一个用于下载的初始URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成 item 的方法。
    为了创建一个Spider,必须继承 scrapy.Spider 类, 且定义以下三个属性:
    name: 用于区别Spider。该名字必须是唯一的。
    start_urls: 包含了Spider在启动时进行爬取的url列表,后续的URL是从初始的URL获取到的数据中提取。
    parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
    spider **

    #!/usr/bin/python
    # -*- coding:utf-8 -*-
    
    from scrapy.spider import Spider
    from scrapy.selector import Selector
    from scrapy import log
    from bback.items import BbackItem
    
    class BbackSpider(Spider):
        """爬取标签"""
        #log.start("log",loglevel='INFO')
        name = "bback"
        allowed_domains = ["baobeihuijia.com"]
        start_urls = (
            'http://baobeihuijia.com/list.aspx?tid=1&sex=&photo=1&page=1/',
        )
    
        def parse(self, response):
    
            sel = Selector(response)
            sites=sel.xpath('//div[@class="pic_bot"]/div[@class="pic_bota"]')
            items=[]
    
            for site in sites:
                item = BbackItem()
    
               
                name=site.xpath('input/@value').extract()
    
                item['name']=[n.encode('utf-8') for n in name]
                items.append(item)
                #记录
                log.msg("Appending item...",level='INFO')
    
    
            log.msg("Append done.",level='INFO')
            return items
    
    

    4.pipelines.py实现对item的处理
    在其中主要完成数据的查重、丢弃,验证item中数据,将得到的item数据保存等工作。代码如下:

    import json
    import codecs
    
    class BbackPipeline(object):
        def __init__(self):
            self.file = codecs.open('bback_data_utf8.json', 'wb', encoding='utf-8')
    
        def process_item(self, item, spider):
            line = json.dumps(dict(item)) + '
    '
            # print line
            self.file.write(line.decode("unicode_escape"))
            return item
    
    

    tips:
    1宝贝计划:是我们团队参加ImageCup的一个作品,此系统是在人脸识别系统Face++云端服务平台上搭建的应用。普通用只需下载此应用,即可上传用户在(逛街时或旅途中)遇到的疑似被拐儿童的照片到失踪儿童图片库进行人脸匹配。匹配完成后,会返回一组信息,如果匹配度高达70%以上,用户即可看到该儿童的基本信息。进而可与失踪儿童父母或相关部门取得联系,拯救失踪儿童.
    爬虫demo下载链接

    参考链接:
    scrapy文档
    scrapy wiki
    binux大牛写的爬虫框架pyspider
    网络爬虫与数据库操作
    Some Experiences Of Using
    scrapy 专栏

  • 相关阅读:
    SpringBoot安装和创建简单的Web应用
    Java设计模式-原型模式
    Java设计模式-单例模式
    Java设计模式-抽象工厂模式(Abstarct Factory)
    Java设计模式-工厂方法模式(Virtual Constructor/Polymorphic Factory)
    Java设计模式-简单工厂模式(Static Factory Method)
    Angular5学习笔记
    设置Nodejs NPM全局路径
    Actor模式初步入门
    Angular5学习笔记
  • 原文地址:https://www.cnblogs.com/code-charmer/p/4139599.html
Copyright © 2020-2023  润新知