土巴兔数据爬取

# -*- coding: utf-8 -*-
import scrapy
from tubatu.items import TubatuItem

class TubatuzxSpider(scrapy.Spider):
    name = 'tubatuzx'
    url = 'http://fs.to8to.com/company/list_'
    yeshu = 1
    start_urls = [url + str(yeshu) + '.html']
    # -- http://fs.to8to.com/company/list_4.html --

    def parse(self, response):
        ss = TubatuItem()
        quan = response.xpath('//ul[@class="company-data-list"]/li')
        # print(quan[1])
        # print('-------------------------------------')
        # items = []
        for sj in quan:
            ss = TubatuItem()
            name = sj.xpath('./a/div[2]/p[1]/span/text()').extract()[0]
            ss['name'] = name.strip()
        #     # name = sj.xpath('./li/a/div[2]/p[1]/span/text()').extract()
            if len(sj.xpath('./a/div[2]/p[2]/text()').extract()):
                # dianhua = sj.xpath('./li/a/div[2]/p[2]/text()').extract()
                ss['dianhua'] = sj.xpath('./a/div[2]/p[2]/text()').extract()[0]
            else:
                dianhua = ''
                ss['dianhua'] =' '

            # ss['name'] = name[0]
            # ss['dianhua'] = dianhua[0]
            # items.append(ss)

            # print(name,dianhua)
            # print(ss)
            yield ss

        if self.yeshu < 4:
            self.yeshu += 1
            url = self.url+str(self.yeshu)+'.html'
            print('>>>>>>>>>>>>>>>'+ url + '<<<<<<<<<<')
            yield scrapy.Request(url,callback=self.parse)

具体代码:https://github.com/mysteriousKiller/tubatu

相关阅读:
mysql双主配置
nginx js、css多个请求合并为一个请求(concat模块)
PHP中利用Redis管道加快执行
总结最近游戏中活动出现被刷问题。
问题记录--负载均衡的均衡器配置了高可用导致问题
php的session获取不到问题之ie浏览器（yaf框架）
Django URLs error: view must be a callable or a list/tuple in the case of include()
在Sublime Text运行Python.How to run Python code from Sumblime Text
JavaWeb项目自动化部署测试学习
hadoop2.5.1+hbase1.1.2安装与配置

原文地址：https://www.cnblogs.com/mysterious-killer/p/10136950.html