• Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段(转)


    原文地址: http://www.cnblogs.com/ruoniao/p/6878731.html

    首先分析网页的结构和抓取流程:
    1,下载start_urls,交给parse方法处理
    
    2,parse处理,从中获取本页的文章url(以后获取到文章首图传递个自定义的parse_detail),和下一页的url
    
    3,将下一页的url交给parse方法。继续进行1和2;将文章url传递给自定义的解析函数parse_detail
    
    4,parse方法对下一页的url进行下载,自定义的parse_detial则通过css或者xpath 解析有用的信息传递给Item,次数两个操作是异步操作
    
    以下是源码:
    # -*- coding: utf-8 -*-
    import scrapy
    import re
    from scrapy.http import Request
    class JobboleSpider(scrapy.Spider):
        name = "jobbole"
        allowed_domains = ["blog.jobbole.com"]
        start_urls = ['http://blog.jobbole.com/all-posts/']
    
        def parse(self, response):
            '''
            进行两部操作:1,从页面抓取所有的文章url交给解析器进行解析这个页面的标题时间点赞数等
                          2,从页面抓取下一个页面的url 进行下载
    
            '''
            #从网页提取文章的URL,交给scrapy下载,并传递给parse_detail解析
            #css_urlsresponse.css('#archive .floated-thumb .post-thumb a ::attr(href)').extract()
            post_urls = response.xpath('/html/body/div[1]/div[3]/div/div/a/@href').extract()
            for url in post_urls:
                #同过scrapy的Request()下载,并且交给自定义的parse_detail解析
                #注意:在这里从网页上解析的url是全的url,不需要拼接,若不全则需要进行拼接
                #拼接通过 urllib库的parse中的urljoin("http://blog.jobbole.com/","110769")函数进行拼接
                yield  Request(url,callback=self.parse_detail)
    
            #从网页获取下一页
            #css_next_url = response.css('.next.page-numbers::attr(href)').extract_first()
            next_url = response.xpath('/html/body/div[1]/div[3]/div[21]/a[4]/@href').extract_first()
            if next_url:
                yield Request(next_url,callback=self.parse)
        def parse_detail(self,response):
            #//*[@id="post-110769"]/div[1]/h1
            #re_selector = response.xpath('//*[@id="post-110769"]/div[1]/h1/text()')
            #re2_selector = response.xpath('/html/body/div[3]/div[1]/h1/text()')
            #re3_selector = response.xpath('//div[@class="entry-header"]/h1/text()')
    
    
    
            #xpath()中的 text()函数是去除html,查看d标签外的 data的内容
            title = response.xpath('/html//div[@class="entry-header"]/h1/text()')
    
            #xpath()中的extracr()函数作用:将xpath()函数产生的Selector xpath对象的内容,并且以列表的对象返回;其他事去除空格和点号不必要的字符
            add_time=response.xpath('/html//p[@class="entry-meta-hide-on-mobile"]/text()').extract()[0].strip().replace("·","")
    
            #文章点赞人数,contains() 是xpath()的内置函数用法,找出在span中class属性包含'vote-post-up'字符串的标签
            like = response.xpath('//span[contains(@class,"vote-post-up")]/h10/text()').extract()[0]
    
            #文章收藏人数:fav_num  xpath解析 10收藏  re再解析 为:10
            fav_temp = response.xpath('//span[contains(@class,"bookmark-btn")]/text()').extract()[0]
            re_fav_num = re.match(".*(d+).*",fav_temp)
            if re_fav_num:
                fav_num =  int(re_fav_num.group(1))
            else:
                fav_num = 0
            #文章评论人数:解析同收藏人数
            comment_temp = response.xpath('//span[@class="btn-bluet-bigger href-style hide-on-480"]/text()').extract()[0]
            re_comment = re.match(".*(d+).*",comment_temp)
            if re_comment:
                comment_num = int(re_comment.group(1))
            else:
                comment_num = 0
            #文章内容,简单提取,不太复杂的,不深入研究
            content = response.xpath('//div[@class="entry"]').extract()[0]
            #标签:涉及去重评论
            temp_tag = response.xpath('/html//p[@class="entry-meta-hide-on-mobile"]/a/text()')
            tag_list = [x for x in tag if not x.strip().endswith("评论") ]
            tags = ";".join(tag_list)
            pass
    '''
    
            #通过css选择器提取数据
    
            #提取标题 .后面跟的代表的是class的属性
            css_title = response.css(".entry-header h1::text").extract()[0]
    
            #添加时间 提取p标签的class的唯一值为entry-meta-hide-on-mobile属性的标签,::text是提取其内容,与text()相似
            css_add_time =response.css("p.entry-meta-hide-on-mobile::text").extract()[0].strip().replace("·","")
    
            #点赞人数:class 属性为vote-post-up 的唯一的标签
            css_like = response.css(".vote-post-up h10::text").extract()[0]
    
            #文章收藏人数,对于数组来说按索引提取有风险,所有需要异常捕获操作,extract_first()就是对其进行异常操作,保证列表为空时不报错
            css_fav_temp = response.css(".bookmark-btn::text").extract_first()
            re_fav_num = re.match(".*(d+).*",fav_temp)
            if re_fav_num:
                css_fav_num =  re_fav_num.group(1)
    
            #文章评论人数
            re_comment = response.css('a[href="#article-comment"] span::text').extract_first()("0")
            if re_comment:
                comment_num = re_comment.group(1)
    
            #标签:涉及去重评论
            temp_tag = response.css('p[class="entry-meta-hide-on-mobile"] a::text').extract()
            tag_list = [x for x in tag if not x.strip().endswith("评论") ]
            tags = ";".join(tag_list)
     '''
    
  • 相关阅读:
    Tensorflow卷积接口总结
    《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
    核函数
    KCF跟踪算法
    岭回归、lasso
    C++的命令行参数(gflag)
    Python的命令行参数(argparse)
    size_t为什么重要
    linux下caffe的命令运行脚本
    卡尔曼滤波
  • 原文地址:https://www.cnblogs.com/nyist-xsk/p/7642911.html
Copyright © 2020-2023  润新知