理解爬虫原理

1. 简单说明爬虫原理

通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理；

当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
当我们在浏览器输入URL http://www.baidu.com 的时候，浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。
浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

URL：统一资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

3).了解网页

写一个简单的html文件，包含多个标签，类，id

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

3.提取一篇校园新闻的标题、发布时间、发布单位

相关阅读:
循环神经网络
相似度计算(余弦距离/欧式距离)
最常见Linux操作
注意力机制总结
随机打乱数组算法、蓄水池算法
6.1 数据结构---树（遍历）
Node.js调用C/C++
linux中nmcli命令详解
stylus入门使用方法
webpack CommonsChunkPlugin详细教程

原文地址：https://www.cnblogs.com/gswyz/p/10592844.html