python爬虫-初步认识

特此声明：

http://cuiqingcai.com/

网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：

第一部分协议和第二部分服务器用' :// '符合隔开，第二部分服务器和第三部分路径用' / '隔开

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL

相关阅读:
bootstrap1
vim格式化代码实际上就是 "缩进代码", 命令是等号=
thinkphp如何一次性的上传多个文件,在文件域中可以多选?
linux下, 再次遇到使用thinkphp的模板标签时,报错used undefined function ThinkTemplatesimplexml_load_string() 是因为没有安装 php-xml包
再谈 Mysql解决中文乱码
碳膜电阻+1N5408二极管?
华为发布业界首套物联网网络建设方法论
页面错误提示
Linux下Redis服务器安装配置
svn 强制用户添加注释和允许用户修改注释

原文地址：https://www.cnblogs.com/wujiadong2014/p/4926313.html