前传
传闻在一个叫做互联网的神奇世界里,有一群神秘的人,每到夜深人静,黑夜笼罩大地的时刻,他们才揭开神秘的面纱,显露出各种各样的神奇能力,他们有的会搬砖,有的会造轮子,当然最厉害的还是一种叫做拷贝的术法...
据说这个神秘的*体流*众多Java*,PHP*,C++*,等等等等,不过奇怪的是,不论他们属于什么宗*,信仰什么流*,他们都有稀疏的发量,高挑的发际线,而且功力越是深厚,越是闪闪发光,听说各大门*,各大组织的掌门,长老,一起出席会议的时候,会让围观者们下意识的唱起民谣“一闪一闪亮晶晶,满天都是小星星...”,斗宗强者,竟恐怖如斯~
然鹅,在各大门*林立的情况下,一个叫做“spider”的分支在不知不觉中悄然诞生,传说关于它的绝世秘籍失落在九州,得之便可由菜狗子的称呼,被人尊称一声“大神”,一时间惹的江湖上人人趋之若鹜,。而流传最广的,还是它扉页上的那句话“欲练此功,必先coding”······
--- 这就是我为什么学爬虫
资质测试
别问,问就是天分
如果你已经准备好走上爬虫修行的道路,在出发前,不如我们先来做个简单的测试,看一看你是不是千年一遇的“主角”~
问卷如下:
- [ ] 会按F12(如果你不会的话,可以尝试一下Alt+F4)
- [ ] 发量还在及格线(emmm,兄弟我要是你,我就不学了,头发重要)
- [ ] 有编程工具(不是吧老哥,这个都没有你是怎么点进来的啊)
隐藏属性加成
- [ ] 能看懂以下结构
<body>
<div>
<h1>Example Domain</h1>
<p>
This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission.
</p>
<p>
<a href="http://www.iana.org/domains/example">More information...</a>
</p>
</div>
</body>
- [ ] 会读代码
流*选择
目前版本只支持
- Java
- scala
- python
成果展示
功法速成,你怕了么
学完这套连招后,能做什么?(我想爬点种子,啪啪啪(打脸声)):)
想我忧国忧民,怎么不学无术,应该干点正事
简单一点,先爬个莆田系的广告竞价排名,如图:
-
运行展示
-
结果保存
最终整个系统将满足如下需求
要满足的需求如下:
- [x] 抓取百度广告竞价排名
- [x] 补充“搜狗”,“360”,“神马”浏览器广告竞价排名数据
- [x] 实现多个关键字一次性输入
- [x] 实现IP地域的更换
- [x] 多线程抓取
- [x] 结果写入Excel,保存在本地
结尾唠叨两句
如果你对我的文章感兴趣,欢迎你点开我下一篇文章,后面我将手把手带你一起完成这个小case,对了如果你也有好的想法,欢迎沟通交流
今天的评论区强烈欢迎大家讲讲你为什么想学爬虫
如果有种子链接,免费代爬,苍老师是世界的!