python网络爬虫与信息提取mooc------request库

python网络爬虫与信息提取mooc------request库

request

request.get(url,params=None,**kwargs)

url:url页面的链接

params：url中额外参数，字典或字节流格式，是可选的

**kwargs：12个控制访问的参数

Response对象：对象包含爬虫返回的内容

访问成功则状态码是200 r.headers:返回页面头部信息

Response对象的属性

爬取网页框架

requests库的异常

timeout是整个过程的超时异常，connectimeout是链接过程超时异常

爬取网页通用代码框架及访问结果：

requests库的7个主要方法：

URL格式：http://host[:port][path]

host:合法的Internet主机域名或ip地址

port：端口号，缺省端口为80

path：请求资源的路径

patch只改变部分内容，put未提及的内容就会删除，原有数据覆盖掉

向url post一个字典自动编为form（表单）；字符串时则是data字段下

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post七种

**kwargs：控制访问的参数，共13个
相关阅读:
分布式文件系统FastDFS详解
 DRF的@action装饰器
 django给视图添加缓存功能
 django自带的django.core.mail模块实现发邮件的功能
 ltsdangerous加密解密
 简单搞懂OAuth2.0
django使用用户名或手机号码登录
 Spring --- 异常处理机制
 Javascript基于对象三大特征 -- 冒充对象
 SQL--相关子查询与非相关子查询
原文地址：https://www.cnblogs.com/cy2268540857/p/12421320.html