python爬虫00什么是爬虫

用一个自动化的程序把网站背后的程序爬取下来。

在互联网上许许多多的网站，他们都是托管在服务器上的，这些服务器24小时运行着，刻刻

等待着别人的请求。所以，爬虫首先会模拟请求，就好像你在浏览器输入网址，然后回车那样，爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求，这个时候爬虫可以家长自己是浏览器，大多数服务器以为是浏览器发送请求，就直接返回数据给爬虫了。

当然，有一些网站比较精明，所以他们会建立一些反爬虫机制。

不同的情况下，服务器返回给我们的数据格式不一样，有HTML,JSON，二进制数据，处理完之后，保存方式也有数据库，硬盘，等等。

相关阅读:
2-3-4 tree留坑
CCPC final Cockroaches
对拍模板
使用cronolog按日期分割日志
linux git 命了
变量加减乘除运算
根据pom标签修改
根据符号获取字符
shell循环字符串数组
git ssh key配置

原文地址：https://www.cnblogs.com/hrnn/p/13303607.html