urllib基本用法(了解)

一、urllib.urlopen

1、urlopen　　

from urllib import request

r = request.urlopen('http://www.baidu.com/')
# 获取状态码
print(r.status)
# 获取相应头
print(r.getheaders())
print('=' * 30)
# 获取网页源码
print(r.read().decode('utf-8'))

注意：urlopen() 含有data（bytes类型）的是post请求，timeout超时

2、Request

from urllib import request
# 创建请求对象
req = request.Request('https://www.cnblogs.com/')
# 打开网页
r = request.urlopen(req)
print(r.read().decode('utf-8'))

注意：data(bytes，dict->str->bytes)，headers={}, method=

使用Handler实现验证、Cookies、代理等功能

二、urllib.error

处理异常

from urllib.error import URLError, HTTPError

使用try....except进行处理

注意：HTTPError是URLRrror的子类

三、urllin.parse

解析

urlparse()
urlunparse()
urlsplit()
urlunsplit()
urljoin()
urlencode()　　# 序列胡
parse_qsl() # 反序列化 结果 [('name', 'tom'), ('age', 24)] 可以使用dict->字典格式
quote()
unquote()

四、 Robot协议

robotparser解析robot.txt文件

相关阅读:
Coxph model Pvalue Select2
Coxph model Pvalue Select
WGCNA 分析
Python 识别验证码
Python2.X如何将Unicode中文字符串转换成 string字符串
客户端putty xshell连接linux中vim不能正常使用小键盘的问题
解决Selenium Webdriver执行测试时，每个测试方法都打开一个浏览器窗口的问题
在Windows上，迁移VisualSVN server
testNG设置测试的执行顺序
重新加载maven项目的依赖项

原文地址：https://www.cnblogs.com/wt7018/p/11902020.html