python爬虫之路——初识爬虫原理

python爬虫之路——初识爬虫原理

爬虫主要做两件事

①模拟计算机对服务器发起Request请求

②接收服务器端的Response内容并解析，提取所需的信息

互联网页面错综复杂，一次请求不能获取全部信息。就需要设计爬虫的流程。

本书主要介绍两种流畅①多页面爬虫流程②跨页面爬虫流程

多页面爬虫流程：

（1）手动翻页并观察各页面的URL构成特点，构造出所有页面的URL存入列表

（2）根据URL列表依次循环取出URL

（3）定义爬虫函数

（4）循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

跨页面的爬虫程序：

（1）定义爬取函数爬取页面中（列表页）的专题URL

（2）将专题URL存入列表中作为种子URL

（3）定义爬虫函数

（4）根据种子URL循环调用爬虫函数，存储数据。

（5）循环结束，结束爬虫程序。

两种流程区别：自己构造URL列表，爬取页面URL列表
相关阅读:
JS 数组总结
 JS 数据类型及其判断
 CSS 优先级
 正则表达式及其使用例子
 常见的图片格式
 React 箭头函数的使用
 手动搭建 react+webpack 开发环境
 JS 函数参数及其传递
 JS 中的 this 指向问题
 JS 中函数的 length 属性
原文地址：https://www.cnblogs.com/lanbofei/p/8669846.html