• python爬虫实战(九)--------拉勾网全站职位(CrawlSpider)


    相关代码已经修改调试成功----2017-4-24

    详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

    一、说明

    1.目标网址拉勾网

    2.实现内容:爬取相应的字段

    数据表名  

    3.思路

    1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多,要变的就是那一串数字,编写正则表达式匹配就好。

    2.除了首页还有其他地方也能找到这样的url,所以我先匹配职位分类的url 例如:https://www.lagou.com/zhaopin/Java/,在抓取最终的url。

    3.scrapy会自动去重。

    4.数据

    二、运行

    1.配置好相关数据库的信息,运行main.py函数即可

    三、问题----欢迎留言提出问题

    声明:此项目主要是学习CrawlSpider类,爬取全站的职位信息,熟悉Rule的一些用法。

    1.你会发现爬取一小会儿,会被禁掉IP,要买代理IP才可行,免费的代理IP都不好用了,还有就是放慢抓取的速度。这样效果会更好。(解决)

    欢迎有兴趣的小伙伴帮我优化,解决以上问题,之后我将合并你的代码,作为贡献者,共同成长。

    编者邮箱:jinxiao_pu@163.com


    如果本项目对你有用请给我一颗star,万分感谢。

    详情代码请移步我的github:https://github.com/pujinxiao/Lagou_spider

    作者:今孝 

    出处:http://www.cnblogs.com/jinxiao-pu/p/6757145.html

    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

  • 相关阅读:
    利用pipe实现进程通信一例
    司机和售票员问题 信号signal注册一例
    HDU 1003
    HDU 1847
    HDU 1846(巴什博弈)
    《断弦》感想
    夺冠概率
    熄灯问题
    HDU 2176(Nim博弈)
    NYOJ 541
  • 原文地址:https://www.cnblogs.com/jinxiao-pu/p/6757145.html
Copyright © 2020-2023  润新知