用CrwalSpider爬取boss直聘

from  boss.items import  BossItem

class  ZhiPinSpider(CrwalSpider):
    name='Zhipin'
    allwed_domains=['zhipin.com']
    start_urls=['https://www.zhipin.com/c100010000/?query=python&page=1']

    rules={
        #匹配职位列表页的规则
        Rule(LinkExtractor(allow=r'.+?query=python&page=d'),follow=True)

        #匹配职位详情页的规则
        Rule(LinkExtractor(allow=r'.+?query=python&page=d'),callback="parse_job",follow=False)

    def  parse_job(self,response):
        title=response.xpath('//h1[@class="name"]/text()').get().strip()
        company=response.xpath('//div[@class="info-company"]//a/text()').get()
        item=BossItem(title=title,company=company)
        yield  item

相关阅读:
SVN服务器搭建和使用（一）
TortoiseSVN客户端重新设置用户名和密码
UML类图
String_Helper
windows常用命令集锦
JavaScript性能优化小知识总结(转)
Uploadify 3.2 参数属性、事件、方法函数详解
记一次 Hibernate 插入数据中文乱码报错解决
Spring——ClassPathXmlApplicationContext（配置文件路径解析 1）
Mybatis错误——Could not find parameter map java.util.Map

原文地址：https://www.cnblogs.com/luckiness/p/13187226.html