快速认识网络爬虫与Scrapy网络爬虫框架

本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分

问:什么是网络爬虫
答:就是从网上下载数据的一个程序,只不过这个程序下载的东西不是某某网站直接提供给我们的,我们直接从别人的网页上拿来的.
问:为什么是我们自己拿?这两者到底有什么区别
答:我们浏览网站是通过某个网址从别人的服务器获取一个网页,但是这个网页我们是不能像BT文件那样,通过迅雷直接下载的,但是网络爬虫则是一个我们自己的迅雷,只要有了网址,那么网页上的东西我们不需要网站提供给我们,我们自己写程序下载就可以了

问:这样有什么好处吗?
答:好处很简单,就是批量获取数据,比如我们我们想要下载周杰伦所有的微博,一个个复制粘贴是不现实的,但是网络爬虫却可以帮助我们很快全都下载下来,机器是不会累,也不会烦的.

其他的比如批量获取图片,批量下载音乐什么的都是类似的网络爬虫

问: 那Scrapy网络爬虫框架又是什么?
答: 如同我们常用的其他框架一样,比如Sklearn或者TensorFlow,又或者换一个例子,我们的PPT模板,框架就是一个已经写好了很多东西的工具包(模板),我们可以使用它快速开发,不过代价就是我们得按照框架的一些条条框框来写.

问:如何去写一个网络爬虫?

答:首先是要找到拥有我们想要数据的网页,比如之前一个获取赶集网数据的爬虫,我们需要的是一座城市所有的租房信息,那么首先我们需要的就是拥有这样数据的网站,比如赶集网

然后就是分析这个网页,然后才能开始编写我们的爬虫,然后才能运行爬虫—>真正的获取到我们想要的数据.

当页面不同的时候,那么我们所需写的爬虫也就不一样.这是一个见招拆招额过程

而我们本次系列的博客讲的就是后面的第二部分,如何见招拆招,写出我们需要的爬虫

问：这次课程有什么要准备的吗？
答：准备的话，需要看看之前赶集网的那篇博客，之后我们会用做例子，其他的没什么要准备的

问：有什么资料之类的吗？
答：有，首先是书一本，《精通Scrapy网络爬虫》这本书的线也是我们这次课程的主线，我备课的时候参考这本书比较多，除此之外因为现在是寒假了，为了更好的教课，我开了哔哩哔哩直播~~(欢迎大家来直播间送礼物)~~，不过直播面向对象是我的学弟们，其他人如果来旁听的话，我确实不介意，但是我只会按照学弟们的进度走。

除此之外博客会更新，会慢一天，内容基本差不多。

相关阅读:
优化算法-BFGS
Go语言及Web框架Beego环境无脑搭建
使用WCF扩展记录服务调用时间
红黑树LLRB
springmvc国际化基于请求的国际化配置
Adapter Pattern
泡泡屏保
使用WCF扩展在方法调用前初始化环境
OAuth的一个.NET开源实现
Google C++编程风格指南

原文地址：https://www.cnblogs.com/fonttian/p/8480682.html