关于爬虫 - 润新知

关于爬虫

技术选型

scrapy VS requests+beautifulsoup

1.　requests+beautifulsoup都是库，而scrapy是框架

2.　scrapy框架中可以加入requests+beautifulsoup

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优势

4.　scrapy方便扩展，提供了很多内置的功能

5.　scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢

网页分类

1.　静态网页

2.　动态网页

3.　webservice(rest api)

爬虫的作用

1.　搜索引擎：Googel、百度、垂直领域搜索引擎

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

关于Python爬虫，我们需要学习的有

1. Python基础语法学习（基础知识）

2. HTML页面的内容抓取（数据抓取）

3. HTML页面的数据提取（数据清洗）

4. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

6. 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)之间的斗争....
相关阅读:
IT黑马-面向对象
 软路由系统记录
 网工笔记
 肖哥HCNP-正式篇笔记
 肖哥HCNP-学前准备篇笔记
 致良知简短笔记
 黑马班笔记
 正则表达示 for Python3
小甲鱼Python3笔记
 linux命令-jdk及mysql安装操作
原文地址：https://www.cnblogs.com/twodog/p/12135716.html

Copyright © 2020-2023 润新知