python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

相关代码已经修改调试成功----2017-4-24

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

一、说明

1.目标网址：拉勾网

2.实现内容：爬取相应的字段

数据表名

3.思路：

1.首先类似于 https://www.lagou.com/jobs/2182417.html 这样的链接是最终要的url。基本都是差不多，要变的就是那一串数字，编写正则表达式匹配就好。

2.除了首页还有其他地方也能找到这样的url，所以我先匹配职位分类的url 例如：https://www.lagou.com/zhaopin/Java/，在抓取最终的url。

3.scrapy会自动去重。

4.数据：

二、运行

1.配置好相关数据库的信息，运行main.py函数即可

三、问题----欢迎留言提出问题

声明：此项目主要是学习CrawlSpider类，爬取全站的职位信息，熟悉Rule的一些用法。

1.你会发现爬取一小会儿，会被禁掉IP，要买代理IP才可行，免费的代理IP都不好用了，还有就是放慢抓取的速度。这样效果会更好。（解决）

欢迎有兴趣的小伙伴帮我优化，解决以上问题，之后我将合并你的代码，作为贡献者,共同成长。

编者邮箱：jinxiao_pu@163.com

如果本项目对你有用请给我一颗star，万分感谢。

详情代码请移步我的github：https://github.com/pujinxiao/Lagou_spider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757145.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。
相关阅读:
【项目 · Wonderland】UML设计
 【项目 · Wonderland】预则立 && 他山之石
 【项目 · Wonderland】需求规格说明书 · 终版
 【项目 · 学生部门互选系统】项目展示
 【项目 · Wonderland】立项报告
 React 封装Form表单组件
 前端算法题解析《四》
前端算法题解析《三》
前端算法题解析《二》
前端算法题解析《一》
原文地址：https://www.cnblogs.com/jinxiao-pu/p/6757145.html

python爬虫实战（九）--------拉勾网全站职位（CrawlSpider）

一、说明

二、运行

三、问题----欢迎留言提出问题