• requests


    requests
    1. requests库的7中主要方法:

    	1. requests.requst()构造一个请求,支撑一下各个方法的基础方法
    	2. requests.get()获取HTML网页中的主要方法,对应于http的get方法
    
    		1. requests.get(url,params=None,**kwargs)
    		2. url:拟获取页面的url链接
    		3. parmas:url中的额外参数,字典或字节流格式,可选
    		4. **kwargs:12个控制访问的参数
    	3. requests.head()获取HTML网页中的头信息的的方法,对应http的head方
    
    		1. requests.head(url,**kwargs)
    		2. url:拟获取页面的url链接
    		3. **kwargs:12个控制访问的参数
    	4. requests.post()向HTML网页提交post请求方法,对应http的post方法
    
    		1. requests.post(url,data=None,json=None,**kwargs)
    		2. url:拟更新的页面的url链接
    		3. data:字典或字节序列或文件,request的内容
    		4. json:JSON格式的数据,request的内容
    		5. **kwargs:11个控制访问的参数
    	5. requests.put()向HTML网页提交put请求方法,对应http的put方法
    
    		1. requests.put(url,data=None,**kwargs)
    		2. url:拟更新的页面的url链接
    		3. data:字典、字节序列或序列,request的内容
    		4. **kwargs:12个控制访问的参数
    	6. requests.patch()向HTML网页提交局部修改请求,对应HTTP的path方法
    
    		1. requests.patch(url,data=None,**kwargs)
    		2. url:拟更新的页面的url链接
    		3. data:字典、字节序例或文件爱你,request的内容
    		4. **kwargs:12个控制访问的参数
    	7. requests.delecte()向HTML网页提交删除请求,对应http的delecte方法
    
    		1. url:拟删除页面的url链接
    		2. **kwargs:13个控制访问的参数
    
    
    1. requests.get(url,params=None,**kwargs)
    
    	1. url:将要获取页面的url链接
    	2. params:url中的额外参数,字典或者字节流格式,可选
    	3. **kwargs:12个控制访问的参数
    2. response对象的属性
    
    	1. r.status_code HTTP请求的返回状态(只要不是200就是没有get到)
    	2. r.text       http相应内容的字符串形式,即url对应的页面内容
    	3. r.encoding    从http header中猜测相应内容的编码方式
    	4. r.apparent_encoding   从内容分析出相应内容的编码方式(备选编码方式)
    	5. r.content   http相应内容的二进制形式
    3. 注意:
    
    	1. r.encoding   如果网页head中没有charset 则认为编码为ISO-8859-1
    	2. r.apparent_encoding 根据网页的内容分析出编码内容
    
    requests库的异常异常说明requests.ConnectionError网络连接错误异常,如DNS查询失败、拒绝链接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失异常requests.TooManyRedirects超过最大重定向次数,产生重定向异常requests.ConnectTimeout连接远程服务器超时异常requests.Timeout请求URL超时,产生超时异常 r.raise_for_status()   如果不是200,产生异常requests.HTTPError 爬取网页的通用代码框架代码:import requestsdef getHTMLText(url):    try:        r = requests.get(url, timeout=30)        r.raise_for_status() #如果状态不是200,引发HTTPError异常        r.encoding = r.apparent_encoding        return r.text    except:        return "产生异常"if __name__ == "__main__":    url = "http://www.baidu.com"    print(getHTMLText(url)) 截图:  HTTP协议:Hypertext Transfer Protocol,超文本传输协议一种基于”请求与响应“模式的、无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识。URL:http://host[:port][path]host:合法的internet主机域名或ip地址port:端口号,缺省端口为80path:请求资源的路径    http响应码:200:客户端请求成功,是最常见的状态302:重定向    页面跳转404:请求资源不存在,是最常见的状态400:客户端请求有语法错误,不能被服务器所理解401:请求未被授权403:服务器收到请求,但是拒绝提供服务500:服务器内部错误,是最常见的状态503:服务器当前不能处理客户端的请求,一段时间可能恢复正常   HTTP协议对资源的操作 方法说明GET请求获取URL位置的资源HEAD请求获取URL位置资源的响应消息报告,即获得该资源的头部信息POST请求向URL位置资源后附加新的内容PUT请求想URL位置存储一个资源,覆盖原URL位置的资源PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容DELETE请求删除URL位置存储的资源 patch和put的区别假设URL位置有一组数据userinfo,包括userid、username等20个字段。需求:用户修改了username,其他不变采用patch,仅向url提交username的局部更新请求采用put,必须将所有的20个字段一并提交给url,没有提交的字段将别删掉patch:节约带宽   requests.request(method,url,**kwargs)method:请求方式,对应get/put/post等7种
    1. r = requests.request('GET',URL,**kwargs)
    
    
    1. r = requests.request('HEAD',url,**kwargs)
    2. r = requests.request('POST',url,**kwargs)
    3. r = requests.request('PUT',url,**kwargs)
    4. r = requests.request('PATCH',url,**kwargs)
    5. r = requests.request('DELETE',url,**kwargs)
    6. r = requests.request('OPTIONS',url,**kwargs)
    

    url:拟获取页面的url链接**kwargs:控制访问参数,共13个
    1. params:字典或字节序列,作为参数增加到url中

    1. data字典字节序列或文件对象,作为request的内容
    
    
    1. json:JSON格式的数据,作为request的内容
    
    
    1. headers:字典,HTTP定制头
    
    
    1. cookies:字典或CookieJar,request中的cookie
    2. auth:元组,支持HTTP认证功能
    3. files:字典类型,传输类型
    
    
    1. timeout:设置的超时时间,秒为单位
    
    
    1. proxies:字典类型设定访问代理服务器,可增加登录认证
    
    
    1. allow_redirects:true/false,默认为true,重定向开关
    2. stream:true/false 默认为ture 获取内容立即下载开关
    3. verify:true/false 默认为true 认证ssl证书开关
    4. cert:本地ssl证书路径
    

    网络爬虫的尺寸
    1. 小规模的,数据量小,爬去速度不敏感 Requests库
    2. 中规模的,数据规模较大爬去速度敏感 Scrapy库
    3. 大规模,搜索引擎,爬取速度关键 定制开发库

    爬虫限制:
    1. 来源审查:判断user-agent进行限制

    	1. 检查来访的http协议头的user-agent域,只响应浏览器或友好的爬虫的访问
    2. 发布公告:Robots协议
    

    Robots协议Robots Exclusion Standard 网络爬虫排除标准 作用:网站告知网络怕中那些网页可以抓取,那些不行形式:在网站的根目录下的robots.txt文件 # robots.txtUser-agent: *Disallow: /cachesDisallow: /phpcmsDisallow: /installDisallow: /phpsso_serverDisallow: /apiDisallow: /admin.php

  • 相关阅读:
    基础篇
    模块,包
    初识面向对象
    linux在线安装jdk
    热点链接(img map area)
    oracle temp 临时表
    ajax基础代码
    Java编译执行带包名java文件
    oracle spool 用法小结
    Hadoop NameNode safemode
  • 原文地址:https://www.cnblogs.com/mephisto03/p/9368774.html
Copyright © 2020-2023  润新知