Python爬虫学习：三、爬虫的基本操作流程

Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔，转载时请注明出处Maple2cat|Python爬虫学习：三、爬虫的基本操作与流程

一般我们使用Python爬虫都是希望实现一套完整的功能，如下：

1.爬虫目标数据、信息；

2.将数据或信息存入数据库中；

3.数据展示，即在Web端进行显示，并有自己的分析说明。

这次我先介绍第一个功能中所需要实现的基本操作：

爬虫的基本操作：

　　表示必须步骤表示可选步骤
1. 导入爬虫所需要的库（如：urllib、urllib2、BeautifulSoup、Scrapy等）
2. 定义目标链接：url="http://www.cnblogs.com/Maple2cat/"
3. 添加data信息：data为字典类型，可以添加name，password等一些登录所需信息
4. 定义headers：有些网站会识别链接是否由浏览器发出的请求，需要定义headers用伪装是浏览器所访问的
5. 如果在第三步中添加了data信息，则需要对data进行转编码：urlencode(data)
6. 请求链接：res=urllib2.Request(url,data,headers)
7. 读取HTML源码：html=res.read()
8. 解析html，一般常用的方法有两种：¹ 正则表达式（根据提取规则截取目标内容）；² BeautifulSoup（根据html标签进行提取，如：<a>……</a>）
9. 存入本地或者数据库
Python正则表达式学习请看这边→|||Python正则表达式学习|||

下一篇将简单介绍如何查看网站登录的data信息以及headers，^_^~
相关阅读:
Js 之xterm.js终端插件
 Mysql 之获取和修改注释
 Js 之codemirror文本编辑器
 Apicloud 之视频播放项目实战
 PHP 之极验验证插件
 PHP 之CI框架+GatewayWorker+AmazeUI仿微信聊天网页版
 PHP 之Html标签转义与反转义
 关于Vue中props的详解
 css特效之旋转音乐播放器
 微信小程序获取地理位置
原文地址：https://www.cnblogs.com/Maple2cat/p/5496348.html

Python爬虫学习：三、爬虫的基本操作流程

爬虫的基本操作：

表示必须步骤 表示可选步骤

下一篇将简单介绍如何查看网站登录的data信息以及headers，^_^~

　　表示必须步骤表示可选步骤