简单实例 - 润新知

简单实例

网络爬虫的第一步就是根据URL，获取网页的HTML信息。在Python3中，可以使用urllib.request和requests进行网页爬取。

urllib库是python内置的，无需我们额外安装，只要安装了Python就可以使用这个库。
requests库是第三方库，需要我们自己安装。
requests库强大好用，所以本文使用requests库获取网页的HTML信息。requests库的github地址：https://github.com/requests/requests

(1) requests安装
在cmd中，使用如下指令安装requests：

pip install requests
1
或者：

easy_install requests
1
(2) 简单实例
requests库的基础方法如下：

官方中文教程地址：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests库的开发者为我们提供了详细的中文教程，查询起来很方便。本文不会对其所有内容进行讲解，摘取其部分使用到的内容，进行实战说明。

首先，让我们看下requests.get()方法，它用于向服务器发起GET请求，不了解GET请求没有关系。我们可以这样理解：get的中文意思是得到、抓住，那这个requests.get()方法就是从服务器得到、抓住数据，也就是获取数据。让我们看一个例子(以 www.gitbook.cn为例)来加深理解：

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
1
2
3
4
5
6
7
requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。运行程序看下结果：

左侧是我们程序获得的结果，右侧是我们在www.gitbook.cn网站审查元素获得的信息。我们可以看到，我们已经顺利获得了该网页的HTML信息。这就是一个最简单的爬虫实例，可能你会问，我只是爬取了这个网页的HTML信息，有什么用呢？客官稍安勿躁，接下来进入我们的实战正文。

---------------------
作者：Jack-Cui
来源：CSDN
原文：https://blog.csdn.net/c406495762/article/details/78123502
版权声明：本文为博主原创文章，转载请附上博文链接！
相关阅读:
spark 程序 TopN FileSort SecondarySort 的出错解决办法
 预报温度和体感温度不是一回事
 搜索引擎搜索技巧
 scrapy 爬虫框架
 scala-sbt
英语削笔机
 php 一句话木马
 [CS充实之路] CS50 WEEK 1
UBUNTU 16.04 编译 OPENJDK8
使用logrotate分割Tomcat的catalina日志
原文地址：https://www.cnblogs.com/Army-Knife/p/10584425.html