爬虫 urllib,requests,lxml,bs4 小结

python3之模块urllib

urllib是python内置的HTTP请求库，无需安装即可使用，它包含了4个模块：
request：它是最基本的http请求模块，用来模拟发送请求
error：异常处理模块，如果出现错误可以捕获这些异常
parse：一个工具模块，提供了许多URL处理方法，如：拆分、解析、合并等
robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬

1、urllib.request.urlopen()
urllib.request.urlopen(url,data=None,[timeout,],cafile=None,capath=None,cadefault=False,context=None)
请求对象，返回一个HTTPResponse类型的对象，包含的方法和属性：
方法：read()、readinto()、getheader(name)、getheaders()、fileno()
属性：msg、version、status、reason、bebuglevel、closed
 
import urllib.request

response=urllib.request.urlopen('https://www.python.org')  
#请求站点获得一个HTTPResponse对象
#print(response.read().decode('utf-8'))   #返回网页内容
#print(response.getheader('server')) #返回响应头中的server值
#print(response.getheaders()) #以列表元祖对的形式返回响应头信息
#print(response.version)  #返回版本信息
#print(response.status)  #返回状态码200，404代表网页未找到
#print(response.debuglevel) #返回调试等级
#print(response.closed)  #返回对象是否关闭布尔值
#print(response.geturl()) #返回检索的URL
#print(response.info()) #返回网页的头信息
#print(response.getcode()) #返回响应的HTTP状态码
#print(response.msg)  #访问成功则返回ok
#print(response.reason) #返回状态信息
 
urlopen()方法可传递参数：
url：网站地址，str类型，也可以是一个request对象
data：data参数是可选的，内容为字节流编码格式的即bytes类型，如果传递data参数，urlopen将使用Post方式请求
 
from urllib.request import urlopen
import urllib.parse

data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf-8') 
#data需要字节类型的参数，使用bytes()函数转换为字节，使用urllib.parse模块里的urlencode()方法来讲参数字典转换为字符串并指定编码
response = urlopen('http://httpbin.org/post',data=data)
print(response.read())
#output
b'{
"args":{},"data":"","files":{},
"form":{"word":"hello"},  #form字段表明模拟以表单的方法提交数据，post方式传输数据"headers":{"Accept-Encoding":"identity",
    "Connection":"close",
    "Content-Length":"10",
    "Content-Type":"application/x-www-form-urlencoded",
    "Host":"httpbin.org",
    "User-Agent":"Python-urllib/3.5"},"json":null,"origin":"114.245.157.49","url":"http://httpbin.org/post"}
'
 
timeout参数：用于设置超时时间，单位为秒，如果请求超出了设置时间还未得到响应则抛出异常，支持HTTP,HTTPS,FTP请求
 
import urllib.request
response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)  #设置超时时间为0.1秒,将抛出异常print(response.read())
#output
urllib.error.URLError: <urlopen error timed out>
#可以使用异常处理来捕获异常import urllib.requestimport urllib.errorimport sockettry:
    response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
    print(response.read())except urllib.error.URLError as e:
    if isinstance(e.reason,socket.timeout): #判断对象是否为类的实例
        print(e.reason) #返回错误信息#output
timed out
 
其他参数：context参数，必须是ssl.SSLContext类型，用来指定SSL设置，此外,cafile和capath这两个参数分别指定CA证书和它的路径，会在https链接时用到。

2、urllib.request.Requset()
urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)
参数：
url：请求的URL，必须传递的参数，其他都是可选参数
data：上传的数据，必须传bytes字节流类型的数据，如果它是字典，可以先用urllib.parse模块里的urlencode()编码
headers：它是一个字典，传递的是请求头数据，可以通过它构造请求头，也可以通过调用请求实例的方法add_header()来添加
例如：修改User_Agent头的值来伪装浏览器，比如火狐浏览器可以这样设置：
{'User-Agent':'Mozilla/5.0 (compatible; MSIE 5.5; Windows NT)'}
origin_req_host：指请求方的host名称或者IP地址
unverifiable：表示这个请求是否是无法验证的，默认为False，如我们请求一张图片如果没有权限获取图片那它的值就是true
method：是一个字符串，用来指示请求使用的方法，如：GET,POST,PUT等
 
#!/usr/bin/env python
#coding:utf8from urllib import request,parse

url='http://httpbin.org/post'
headers={
    'User-Agent':'Mozilla/5.0 (compatible; MSIE 5.5; Windows NT)',
    'Host':'httpbin.org'
}  #定义头信息
dict={'name':'germey'}
data = bytes(parse.urlencode(dict),encoding='utf-8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
#req.add_header('User-Agent','Mozilla/5.0 (compatible; MSIE 8.4; Windows NT') #也可以request的方法来添加
response = request.urlopen(req) 
print(response.read())
 

3、urllib.request的高级类
在urllib.request模块里的BaseHandler类，他是所有其他Handler的父类，他是一个处理器，比如用它来处理登录验证，处理cookies，代理设置，重定向等
它提供了直接使用和派生类使用的方法：
add_parent(director)：添加director作为父类
close()：关闭它的父类
parent()：打开使用不同的协议或处理错误
defautl_open(req)：捕获所有的URL及子类，在协议打开之前调用
 
Handler的子类包括：
HTTPDefaultErrorHandler：用来处理http响应错误，错误会抛出HTTPError类的异常
HTTPRedirectHandler：用于处理重定向
HTTPCookieProcessor：用于处理cookies
ProxyHandler：用于设置代理，默认代理为空
HTTPPasswordMgr：永远管理密码，它维护用户名和密码表
HTTPBasicAuthHandler：用户管理认证，如果一个链接打开时需要认证，可以使用它来实现验证功能
 
OpenerDirector类是用来处理URL的高级类，它分三个阶段来打开URL：
在每个阶段中调用这些方法的顺序是通过对处理程序实例 进行排序来确定的；每个使用此类方法的程序都会调用protocol_request()方法来预处理请求，然后调用protocol_open()来处理请求，最后调用protocol_response()方法来处理响应。
之前的urlopen()方法就是urllib提供的一个Opener，通过Handler处理器来构建Opener实现Cookies处理,代理设置，密码设置等
Opener的方法包括：
add_handler(handler)：添加处理程序到链接中
open(url,data=None[,timeout])：打开给定的URL与urlopen()方法相同
error(proto,*args)：处理给定协议的错误
更多Request内容...
密码验证：
 
#!/usr/bin/env python
#coding:utf8
from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener
from urllib.error import URLError

username='username'
passowrd='password'
url='http://localhost'
p=HTTPPasswordMgrWithDefaultRealm() #构造密码管理实例
p.add_password(None,url,username,passowrd) #添加用户名和密码到实例中
auth_handler=HTTPBasicAuthHandler(p) #传递密码管理实例构建一个验证实例
opener=build_opener(auth_handler)  #构建一个Openertry:
    result=opener.open(url)  #打开链接，完成验证，返回的结果是验证后的页面内容
    html=result.read().decode('utf-8')
    print(html)except URLError as e:
    print(e.reason)

代理设置：
 
#!/usr/bin/env python
#coding:utf8from urllib.error import URLErrorfrom urllib.request import ProxyHandler,build_opener

proxy_handler=ProxyHandler({
    'http':'http://127.0.0.1:8888',
    'https':'http://127.0.0.1:9999'
})
opener=build_opener(proxy_handler) #构造一个Openertry:
    response=opener.open('https://www.baidu.com')
    print(response.read().decode('utf-8'))except URLError as e:
    print(e.reason)
 
Cookies：
获取网站的Cookies
 
#!/usr/bin/env python
#coding:utf8import http.cookiejar,urllib.request
cookie=http.cookiejar.CookieJar() #实例化cookiejar对象
handler=urllib.request.HTTPCookieProcessor(cookie) #构建一个handler
opener=urllib.request.build_opener(handler) #构建Opener
response=opener.open('http://www.baidu.com') #请求print(cookie)for item in cookie:
    print(item.name+"="+item.value)
 
Mozilla型浏览器的cookies格式，保存到文件：
 
#!/usr/bin/env python
#coding:utf8import http.cookiejar,urllib.request
fielname='cookies.txt'
cookie=http.cookiejar.MozillaCookieJar(filename=fielname) #创建保存cookie的实例，保存浏览器类型的Mozilla的cookie格式
#cookie=http.cookiejar.CookieJar() #实例化cookiejar对象
handler=urllib.request.HTTPCookieProcessor(cookie) #构建一个handler
opener=urllib.request.build_opener(handler) #构建Opener
response=opener.open('http://www.baidu.com') #请求
cookie.save(ignore_discard=True,ignore_expires=True)
 
也可以保存为libwww-perl(LWP)格式的Cookies文件
cookie=http.cookiejar.LWPCookieJar(filename=fielname)
从文件中读取cookies：
 
#!/usr/bin/env python
#coding:utf8import http.cookiejar,urllib.request#fielname='cookiesLWP.txt'
#cookie=http.cookiejar.MozillaCookieJar(filename=fielname) #创建保存cookie的实例，保存浏览器类型的Mozilla的cookie格式
#cookie=http.cookiejar.LWPCookieJar(filename=fielname) #LWP格式的cookies
#cookie=http.cookiejar.CookieJar() #实例化cookiejar对象
cookie=http.cookiejar.LWPCookieJar()
cookie.load('cookiesLWP.txt',ignore_discard=True,ignore_expires=True)

handler=urllib.request.HTTPCookieProcessor(cookie) #构建一个handler
opener=urllib.request.build_opener(handler) #构建Opener
response=opener.open('http://www.baidu.com') #请求print(response.read().decode('utf-8'))
 

4、异常处理
urllib的error模块定义了由request模块产生的异常，如果出现问题，request模块便会抛出error模块中定义的异常。
1）URLError
URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块产生的异常都可以通过捕获这个类来处理
它只有一个属性reason，即返回错误的原因
 
#!/usr/bin/env python
#coding:utf8from urllib import request,error
try:
    response=request.urlopen('https://hehe,com/index')except error.URLError as e:
    print(e.reason)  #如果网页不存在不会抛出异常，而是返回捕获的异常错误的原因(Not Found)
 
reason如超时则返回一个对象
 
#!/usr/bin/env python
#coding:utf8
import socketimport urllib.requestimport urllib.errortry:
    response=urllib.request.urlopen('https://www.baidu.com',timeout=0.001)except urllib.error.URLError as e:
    print(e.reason)
    if isinstance(e.reason,socket.timeout):
        print('time out')
 
2）HTTPError
它是URLError的子类，专门用来处理HTTP请求错误，比如认证请求失败，它有3个属性：
code：返回HTTP的状态码，如404页面不存在，500服务器错误等
reason：同父类，返回错误的原因
headers：返回请求头
更多error内容...
 
#!/usr/bin/env python
#coding:utf8from urllib import request,error
try:
    response=request.urlopen('http://cuiqingcai.com/index.htm')except error.HTTPError as e:  #先捕获子类异常
    print(e.reason,e.code,e.headers,sep='
')except error.URLError as e:  #再捕获父类异常
    print(e.reason)else:
    print('request successfully')
 

5、解析链接
urllib库提供了parse模块，它定义了处理URL的标准接口，如实现URL各部分的抽取，合并以及链接转换，它支持如下协议的URL处理：file,ftp,gopher,hdl,http,https,imap,mailto,mms,news,nntp,prospero,rsync,rtsp,rtspu,sftp,sip,sips,snews,svn,snv+ssh,telnet,wais
urllib.parse.urlparse(urlstring,scheme='',allow_fragments=True)
通过urlparse的API可以看到，它还可以传递3个参数
urlstring：待解析的URL，字符串
scheme：它是默认的协议，如http或者https，URL如果不带http协议，可以通过scheme来指定，如果URL中制定了http协议则URL中生效
allow_fragments：是否忽略fragment即锚点，如果设置为False，fragment部分会被忽略，反之不忽略
更多parse模块内容...
1）urlparse()
该方法可以实现URL的识别和分段，分别是scheme(协议),netloc(域名),path(路径),params(参数),query(查询条件),fragment(锚点)
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlparse
result=urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result),result,sep='
')  #返回的是一个元祖print(result.scheme,result[0])  #可以通过属性或者索引来获取值print(result.netloc,result[1])
print(result.path,result[2])
print(result.params,result[3])
print(result.query,result[4])
print(result.fragment,result[5])
#output
#返回结果是一个parseresult类型的对象，它包含6个部分，
#分别是scheme(协议),netloc(域名),path(路径),params(参数),query(查询条件),fragment(锚点)

<class 'urllib.parse.ParseResult'>
ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')
http http
www.baidu.com www.baidu.com/index.html /index.html
user user
id=5 id=5
comment comment
 
指定scheme协议，allow_fragments忽略锚点信息：
 
from urllib.parse import urlparse
result=urlparse('www.baidu.com/index.html;user?id=5#comment',scheme='https',allow_fragments=False)print(result) 
#output
ParseResult(scheme='https', netloc='', path='www.baidu.com/index.html', params='user', query='id=5#comment', fragment='')
 
2）urlunparse()
与urlparse()相反，通过列表或者元祖的形式接受一个可迭代的对象，实现URL构造
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlunparse
data=['http','www.baidu.com','index.html','user','a=6','comment']print(urlunparse(data)) #构造一个完整的URL
#output
http://www.baidu.com/index.html;user?a=6#comment
 
3)urlsplit()
与urlparse()方法类似，它会返回5个部分，把params合并到path中
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlsplit
result=urlsplit('http://www.baidu.com/index.html;user?id=5#comment')print(result)
#output
SplitResult(scheme='http', netloc='www.baidu.com', path='/index.html;user', query='id=5', fragment='comment')
 
4)urlunsplit()
与urlunparse()类似，它也是将链接的各部分组合完整的链接的方法，传入的参数也是可迭代的对象，如列表元祖等，唯一的区别是长度必须是5个，它省略了params
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlsplit,urlunsplit
data=['http','www.baidu.com','index.html','a=5','comment']
result=urlunsplit(data)print(result)
#output
http://www.baidu.com/index.html?a=5#comment
 
5)urljoin()
 通过将基本URL（base）与另一个URL(url)组合起来构建完整URL，它会使用基本URL组件，协议(schemm)、域名(netloc)、路径(path)、来提供给URL中缺失的部分进行补充，最后返回结果
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urljoin
print(urljoin('http://www.baidu.com','index.html'))
print(urljoin('http://www.baidu.com','http://cdblogs.com/index.html'))
print(urljoin('http://www.baidu.com/home.html','https://cnblog.com/index.html'))
print(urljoin('http://www.baidu.com?id=3','https://cnblog.com/index.html?id=6'))
print(urljoin('http://www.baidu.com','?id=2#comment'))
print(urljoin('www.baidu.com','https://cnblog.com/index.html?id=6'))
#output
http://www.baidu.com/index.html
http://cdblogs.com/index.html
https://cnblog.com/index.html
https://cnblog.com/index.html?id=6
http://www.baidu.com?id=2#comment
https://cnblog.com/index.html?id=6
 
base_url提供了三项内容scheme,netloc,path，如果这3项在新的链接中不存在就给予补充，如果新的链接存在就使用新的链接部分，而base_url中的params,query和fragment是不起作用的。通过urljoin()方法可以实现链接的解析、拼接和生成
6)urlencode()
 urlencode()在构造GET请求参数时很有用，它可以将字典转化为GET请求参数
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlencode
params = {'username':'zs','password':'123'}
base_url='http://www.baidu.com'
url=base_url+'?'+urlencode(params) #将字典转化为get参数print(url)
#output
http://www.baidu.com?password=123&username=zs
 
7)parse_qs()
 parse_qs()与urlencode()正好相反，它是用来反序列化的，如将GET参数转换回字典格式
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlencode,parse_qs,urlsplit
params = {'username':'zs','password':'123'}
base_url='http://www.baidu.com'
url=base_url+'?'+urlencode(params) #将字典转化为get参数
query=urlsplit(url).query  #获去URL的query参数条件print(parse_qs(query))  #根据获取的GET参数转换为字典格式

#output
{'username': ['zs'], 'password': ['123']}
 
8)parse_qsl()它将参数转换为元祖组成的列表
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import urlencode,urlsplit,parse_qsl

params = {'username':'zs','password':'123'}
base_url='http://www.baidu.com'
url=base_url+'?'+urlencode(params) #将字典转化为get参数
query=urlsplit(url).query  #获去URL的query参数条件print(parse_qsl(query)) #将转换成列表形式的元祖对
#output
[('username', 'zs'), ('password', '123')]
 
9)quote()：该方法可以将内容转换为URL编码的格式，如参数中带有中文时，有时会导致乱码的问题，此时用这个方法将中文字符转化为URL编码
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import quote
key='中文'
url='https://www.baidu.com/s?key='+quote(key)print(url)
#output
https://www.baidu.com/s?key=%E4%B8%AD%E6%96%87
 
10)unquote()：与quote()相反，他用来进行URL解码
 
#!/usr/bin/env python
#coding:utf8from urllib.parse import quote,urlsplit,unquote
key='中文'
url='https://www.baidu.com/s?key='+quote(key)print(url)
unq=urlsplit(url).query.split('=')[1] #获取参数值
print(unquote(unq))  #解码参数
 

6、分析Robots协议
 利用urllib的robotparser模块，我们可以实现网站Robots协议的分析
1）Robots协议
Robots协议也称为爬虫协议、机器人协议，它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol)，用来告诉爬虫和搜索引擎哪些网页可以抓取，哪些不可以抓取，它通常是一个robots.txt的文本文件，一般放在网站的根目录下。
当搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在robots.txt文件，如果存在，搜索爬虫会根据其中定义的爬去范围来爬取，如果没有找到，搜索爬虫会访问所有可直接访问的页面
我们来看下robots.txt的样例：
User-agent: *
Disallow: /
Allow: /public/
它实现了对所有搜索爬虫只允许爬取public目录的功能，将上述内容保存为robots.txt文件放在网站根目录下，和网站的入口文件（index.html）放在一起
User-agent描述了搜索爬虫的名称，将其设置为*则代表协议对任何爬虫有效，如设置为Baiduspider则代表规则对百度爬虫有效，如果有多条则对多个爬虫受到限制，但至少需要指定一条
一些常见的搜索爬虫名称：
BaiduSpider　　百度爬虫   www.baidu.com
Googlebot　　Google爬虫   www.google.com
360Spider　　360爬虫   www.so.com
YodaoBot　　有道爬虫   www.youdao.com
ia_archiver　　Alexa爬虫   www.alexa.cn
Scooter　　altavista爬虫     www.altavista.com
Disallow指定了不允许抓取的目录，如上例中设置的/则代表不允许抓取所有的页面
Allow一般和Disallow一起使用，用来排除单独的某些限制，如上例中设置为/public/则表示所有页面不允许抓取，但可以抓取public目录
设置示例：
 
#禁止所有爬虫
User-agent: *
Disallow: /
#允许所有爬虫访问任何目录,另外把文件留空也可以
User-agent: *
Disallow:
#禁止所有爬虫访问某那些目录
User-agent: *
Disallow: /home/
Disallow: /tmp/
#只允许某一个爬虫访问
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
 
2）robotparser
rebotparser模块用来解析robots.txt，该模块提供了一个类RobotFileParser，它可以根据某网站的robots.txt文件来判断一个抓取爬虫时都有权限来抓取这个网页
urllib.robotparser.RobotFileParser(url='')
robotparser类常用的方法：
set_url()：用来设置robots.txt文件的连接，如果在创建RobotFileParser对象是传入了连接，就不需要在使用这个方法设置了
read()：读取reobts.txt文件并进行分析，它不会返回任何内容，但执行那个了读取和分析操作
parse()：用来解析robots.txt文件，传入的参数是robots.txt某些行的内容，并安装语法规则来分析内容
can_fetch()：该方法传入两个参数，第一个是User-agent，第二个是要抓取的URL，返回的内容是该搜索引擎是否可以抓取这个url,结果为True或False
mtime()：返回上次抓取和分析robots.txt的时间
modified()：将当前时间设置为上次抓取和分析robots.txt的时间
 
#!/usr/bin/env python
#coding:utf8from urllib.robotparser import RobotFileParser
rp = RobotFileParser()  #创建对象
rp.set_url('https://www.cnblogs.com/robots.txt') #设置robots.txt连接，也可以在创建对象时指定
rp.read()  #读取和解析文件
print(rp.can_fetch('*','https://i.cnblogs.com/EditPosts.aspx?postid=9170312&update=1')) #坚持链接是否可以被抓取

python3 requests

官网中对requests的介绍是"HTTP for Humans"
Requests allows you to send organic, grass-fed HTTP/1.1 requests, without the need for manual labor. There’s no need to manually add query strings to your URLs, or to form-encode your POST data. Keep-alive and HTTP connection pooling are 100% automatic, thanks to urllib3.
GET请求不用&拼接参数，POST请求也毋须编码请求体
总之简单易用，是接口测试和爬虫的必备神器
2 基本使用
2-1 get/post
import requests
//get无参数
r = requests.get('https://httpbin.org/get')
//get有参数，使用params
data = {'key': 'value'}
r = requests.get('https://httpbin.org/get', params=data)
//post有参数，使用data
r = requests.post('https://httpbin.org/post', data = {'key':'value'})
2-2 自定义请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
r = requests.get('https://httpbin.org/get', headers=headers)
2-3 响应内容
•   r.content 响应内容的字节码，一般处理二进制文件
•   r.text 自动选择适当的编码，对r.content解码
•   r.json() 解析json格式的数据，如果无法解析，则抛出异常
3 API
无论是get/post/delete/put/patch/head/options，都是调用request方法
参数如下：
•   url 请求的URL地址
•   params GET请求参数
•   data POST请求参数
•   json 同样是POST请求参数，要求服务端接收json格式的数据
•   headers 请求头字典
•   cookies cookies信息（字典或CookieJar）
•   files 上传文件
•   auth HTTP鉴权信息
•   timeout 等待响应时间，单位秒
•   allow_redirects 是否允许重定向
•   proxies 代理信息
•   verify 是否校验证书
•   stream 如果为False，则响应内容将直接全部下载
•   cert 客户端证书地址
4 Session对象
Session可以持久化请求过程中的参数，以及cookie
尤其是需要登录的网页，使用session可以避免每次的登录操作
s = requests.Session()
s.cookies = requests.cookies.cookiejar_from_dict({'key': 'value'})

r = s.get('https://httpbin.org/cookies')
print(r.text)
===========================
{
  "cookies": {
    "key": "value"
  }
}
另外session还可提供默认值
s = requests.Session()
s.headers.update({'h1':'val1', 'h2':'val2'})

r = s.get('https://httpbin.org/headers', headers={'h2': 'val2_modify'})
print(r.text)
============================
    "H1": "val1", 
    "H2": "val2_modify",
5 Response对象
字段
•   cookies 返回CookieJar对象
•   encoding 报文的编码
•   headers 响应头
•   history 重定向的历史记录
•   status_code 响应状态码，如200
•   elaspsed 发送请求到接收响应耗时
•   text 解码后的报文主体
•   content 字节码，可能在raw的基础上解压
方法
•   json() 解析json格式的响应
•   iter_content() 需配置stream=True，指定chunk_size大小
•   iter_lines() 需配置stream=True，每次返回一行
•   raise_for_status() 400-500之间将抛出异常
•   close()
6 Prepared Requests
一般情况下，会一次性包装好请求头，请求参数，cookies，鉴权等；但如果通过某些条件判断，可以局部组装requests
s = requests.Session()
req = requests.Request('GET', url='https://httpbin.org/get')

prep = s.prepare_request(req)
headers = {
    'User-Agent': 'Chrome/67.0.3396.62'}
prep.prepare(
    method='POST',
    url='https://httpbin.org/post',
    headers=headers,
    data={'key': 'value'})

r = s.send(prep)print(r.text)==================={
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key": "value"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Connection": "close", 
    "Content-Length": "9", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Chrome/67.0.3396.62"
  }, 
  "json": null, 
  "origin": "xx.xx.xx.xx", 
  "url": "https://httpbin.org/post"}

python3解析库lxml

 lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高
XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索
XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择
XPath于1999年11月16日成为W3C标准，它被设计为供XSLT、XPointer以及其他XML解析软件使用，更多的文档可以访问其官方网站：https://www.w3.org/TR/xpath/
1、python库lxml的安装
windows系统下的安装：
#pip安装
pip3 install lxml

#wheel安装
#下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl
linux下安装：
yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

pip3 install lxml
验证安装：
$python3
>>>import lxml
2、XPath常用规则
表达式 描述
nodename  选取此节点的所有子节点
/ 从当前节点选取直接子节点
//  从当前节点选取子孙节点
. 选取当前节点
..  选取当前节点的父节点
@ 选取属性
* 通配符，选择所有元素节点与元素名
@*  选取所有属性
[@attrib] 选取具有给定属性的所有元素
[@attrib='value'] 选取给定属性具有给定值的所有元素
[tag] 选取所有具有指定元素的直接子节点
[tag='text']  选取所有具有指定元素并且文本内容是text节点
（1）读取文本解析节点
from lxml import etree

text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </ul>
 </div>
'''
html=etree.HTML(text) #初始化生成一个XPath解析对象
result=etree.tostring(html,encoding='utf-8')   #解析对象输出代码
print(type(html))
print(type(result))
print(result.decode('utf-8'))

#etree会修复HTML文本节点
<class 'lxml.etree._Element'>
<class 'bytes'>
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </li></ul>
 </div>
</body></html>
（2）读取HTML文件进行解析
from lxml import etree

html=etree.parse('test.html',etree.HTMLParser()) #指定解析器HTMLParser会根据文件修复HTML文件中缺失的如声明信息
result=etree.tostring(html)   #解析成字节
#result=etree.tostringlist(html) #解析成列表
print(type(html))
print(type(result))
print(result)

#
<class 'lxml.etree._ElementTree'>
<class 'bytes'>
b'<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>&#13;
    <ul>&#13;
         <li class="item-0"><a href="link1.html">first item</a></li>&#13;
         
<li class="item-1"><a href="link2.html">second item</a></li>&#13;
        
 <li class="item-inactive"><a href="link3.html">third item</a></li>&#13;
         
<li class="item-1"><a href="link4.html">fourth item</a></li>&#13;
         
<li class="item-0"><a href="link5.html">fifth item</a>&#13;
</li></ul>&#13;
 </div>&#13;
</body></html>'

（3）获取所有节点
from lxml import etree

html=etree.parse('test',etree.HTMLParser())
result=html.xpath('//*')  #//代表获取子孙节点，*代表获取所有

print(type(html))
print(type(result))
print(result)

#
<class 'lxml.etree._ElementTree'>
<class 'list'>
[<Element html at 0x754b210048>, <Element body at 0x754b210108>, <Element div at 0x754b210148>, <Element ul at 0x754b210188>, <Element li at 0x754b2101c8>, <Element a at 0x754b210248>, <Element li at 0x754b210288>, <Element a at 0x754b2102c8>, <Element li at 0x754b210308>, <Element a at 0x754b210208>, <Element li at 0x754b210348>, <Element a at 0x754b210388>, <Element li at 0x754b2103c8>, <Element a at 0x754b210408>]
如要获取li节点，可以使用//后面加上节点名称，然后调用xpath()方法
html.xpath('//li')   #获取所有子孙节点的li节点
（4）获取子节点
通过/或者//即可查找元素的子节点或者子孙节点，如果想选择li节点的所有直接a节点，可以这样使用
result=html.xpath('//li/a')  #通过追加/a选择所有li节点的所有直接a节点，因为//li用于选中所有li节点，/a用于选中li节点的所有直接子节点a
（5）获取父节点
我们知道通过连续的/或者//可以查找子节点或子孙节点，那么要查找父节点可以使用..来实现也可以使用parent::来获取父节点
from lxml import etree
from lxml.etree import HTMLParser
text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
     </ul>
 </div>
'''

html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//a[@href="link2.html"]/../@class')
result1=html.xpath('//a[@href="link2.html"]/parent::*/@class')
print(result)
print(result1)


#
['item-1']
['item-1']
（6）属性匹配
在选取的时候，我们还可以用@符号进行属性过滤。比如，这里如果要选取class为item-1的li节点，可以这样实现:
from lxml import etree
from lxml.etree import HTMLParser
text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
     </ul>
 </div>
'''

html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//li[@class="item-1"]')
print(result)
（7）文本获取
我们用XPath中的text()方法获取节点中的文本
from lxml import etree

text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
     </ul>
 </div>
'''

html=etree.HTML(text,etree.HTMLParser())
result=html.xpath('//li[@class="item-1"]/a/text()') #获取a节点下的内容
result1=html.xpath('//li[@class="item-1"]//text()') #获取li下所有子孙节点的内容

print(result)
print(result1)
（8）属性获取
使用@符号即可获取节点的属性，如下：获取所有li节点下所有a节点的href属性
result=html.xpath('//li/a/@href')  #获取a的href属性
result=html.xpath('//li//@href')   #获取所有li子孙节点的href属性
回到顶部
（9）属性多值匹配
如果某个属性的值有多个时，我们可以使用contains()函数来获取
from lxml import etree

text1='''
<div>
    <ul>
         <li class="aaa item-0"><a href="link1.html">第一个</a></li>
         <li class="bbb item-1"><a href="link2.html">second item</a></li>
     </ul>
 </div>
'''

html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[@class="aaa"]/a/text()')
result1=html.xpath('//li[contains(@class,"aaa")]/a/text()')

print(result)
print(result1)

#通过第一种方法没有取到值，通过contains（）就能精确匹配到节点了
[]
['第一个']
（10）多属性匹配
另外我们还可能遇到一种情况，那就是根据多个属性确定一个节点，这时就需要同时匹配多个属性，此时可用运用and运算符来连接使用：
from lxml import etree

text1='''
<div>
    <ul>
         <li class="aaa" name="item"><a href="link1.html">第一个</a></li>
         <li class="aaa" name="fore"><a href="link2.html">second item</a></li>
     </ul>
 </div>
'''

html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[@class="aaa" and @name="fore"]/a/text()')
result1=html.xpath('//li[contains(@class,"aaa") and @name="fore"]/a/text()')


print(result)
print(result1)


#
['second item']
['second item']
（11）XPath中的运算符
运算符 描述  实例  返回值
or  或 age=19 or age=20  如果age等于19或者等于20则返回true反正返回false
and 与 age>19 and age<21 如果age等于20则返回true，否则返回false
mod 取余  5 mod 2 1
| 取两个节点的集合  //book | //cd 返回所有拥有book和cd元素的节点集合
+ 加 6+4 10
- 减 6-4 2
* 乘 6*4 24
div 除法  8 div 4 2
= 等于  age=19  true
!=  不等于 age!=19 true
< 小于  age<19  true
<=  小于或等于 age<=19 true
> 大于  age>19  true
>=  大于或等于 age>=19 true
（12）按序选择
有时候，我们在选择的时候某些属性可能同时匹配多个节点，但我们只想要其中的某个节点，如第二个节点或者最后一个节点，这时可以利用中括号引入索引的方法获取特定次序的节点：
from lxml import etree

text1='''
<div>
    <ul>
         <li class="aaa" name="item"><a href="link1.html">第一个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第二个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第三个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第四个</a></li> 
     </ul>
 </div>
'''

html=etree.HTML(text1,etree.HTMLParser())

result=html.xpath('//li[contains(@class,"aaa")]/a/text()') #获取所有li节点下a节点的内容
result1=html.xpath('//li[1][contains(@class,"aaa")]/a/text()') #获取第一个
result2=html.xpath('//li[last()][contains(@class,"aaa")]/a/text()') #获取最后一个
result3=html.xpath('//li[position()>2 and position()<4][contains(@class,"aaa")]/a/text()') #获取第一个
result4=html.xpath('//li[last()-2][contains(@class,"aaa")]/a/text()') #获取倒数第三个


print(result)
print(result1)
print(result2)
print(result3)
print(result4)


#
['第一个', '第二个', '第三个', '第四个']
['第一个']
['第四个']
['第三个']
['第二个']
这里使用了last()、position()函数，在XPath中，提供了100多个函数，包括存取、数值、字符串、逻辑、节点、序列等处理功能
（13）节点轴选择
XPath提供了很多节点选择方法，包括获取子元素、兄弟元素、父元素、祖先元素等，示例如下：
from lxml import etree

text1='''
<div>
    <ul>
         <li class="aaa" name="item"><a href="link1.html">第一个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第二个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第三个</a></li>
         <li class="aaa" name="item"><a href="link1.html">第四个</a></li> 
     </ul>
 </div>
'''

html=etree.HTML(text1,etree.HTMLParser())
result=html.xpath('//li[1]/ancestor::*')  #获取所有祖先节点
result1=html.xpath('//li[1]/ancestor::div')  #获取div祖先节点
result2=html.xpath('//li[1]/attribute::*')  #获取所有属性值
result3=html.xpath('//li[1]/child::*')  #获取所有直接子节点
result4=html.xpath('//li[1]/descendant::a')  #获取所有子孙节点的a节点
result5=html.xpath('//li[1]/following::*')  #获取当前子节之后的所有节点
result6=html.xpath('//li[1]/following-sibling::*')  #获取当前节点的所有同级节点


#
[<Element html at 0x3ca6b960c8>, <Element body at 0x3ca6b96088>, <Element div at 0x3ca6b96188>, <Element ul at 0x3ca6b961c8>]
[<Element div at 0x3ca6b96188>]
['aaa', 'item']
[<Element a at 0x3ca6b96248>]
[<Element a at 0x3ca6b96248>]
[<Element li at 0x3ca6b96308>, <Element a at 0x3ca6b96348>, <Element li at 0x3ca6b96388>, <Element a at 0x3ca6b963c8>, <Element li at 0x3ca6b96408>, <Element a at 0x3ca6b96488>]
[<Element li at 0x3ca6b96308>, <Element li at 0x3ca6b96388>, <Element li at 0x3ca6b96408>]
（14）案例应用：抓取TIOBE指数前20名排行开发语言
#!/usr/bin/env python
#coding:utf-8
import requests
from requests.exceptions import RequestException
from lxml import etree
from lxml.etree import ParseError
import json

def one_to_page(html):
    headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
    }
    try:
        response=requests.get(html,headers=headers)
        body=response.text  #获取网页内容
    except RequestException as e:
        print('request is error!',e)
    try:
        html=etree.HTML(body,etree.HTMLParser())  #解析HTML文本内容
        result=html.xpath('//table[contains(@class,"table-top20")]/tbody/tr//text()') #获取列表数据
        pos = 0
        for i in range(20):
            if i == 0:
                yield result[i:5]
            else:
                yield result[pos:pos+5]  #返回排名生成器数据
            pos+=5
    except ParseError as e:
         print(e.position)


def write_file(data):   #将数据重新组合成字典写入文件并输出
    for i in data:
        sul={
            '2018年6月排行':i[0],
            '2017年6排行':i[1],
            '开发语言':i[2],
            '评级':i[3],
            '变化率':i[4]
        }
        with open('test.txt','a',encoding='utf-8') as f:
            f.write(json.dumps(sul,ensure_ascii=False) + '
') #必须格式化数据
            f.close()
        print(sul)
    return None


def main():
    url='https://www.tiobe.com/tiobe-index/'
    data=one_to_page(url)
    revaule=write_file(data)
    if revaule == None:
        print('ok')
        
 
 
        
if __name__ == '__main__':
    main()



#
{'2018年6月排行': '1', '2017年6排行': '1', '开发语言': 'Java', '评级': '15.368%', '变化率': '+0.88%'}
{'2018年6月排行': '2', '2017年6排行': '2', '开发语言': 'C', '评级': '14.936%', '变化率': '+8.09%'}
{'2018年6月排行': '3', '2017年6排行': '3', '开发语言': 'C++', '评级': '8.337%', '变化率': '+2.61%'}
{'2018年6月排行': '4', '2017年6排行': '4', '开发语言': 'Python', '评级': '5.761%', '变化率': '+1.43%'}
{'2018年6月排行': '5', '2017年6排行': '5', '开发语言': 'C#', '评级': '4.314%', '变化率': '+0.78%'}
{'2018年6月排行': '6', '2017年6排行': '6', '开发语言': 'Visual Basic .NET', '评级': '3.762%', '变化率': '+0.65%'}
{'2018年6月排行': '7', '2017年6排行': '8', '开发语言': 'PHP', '评级': '2.881%', '变化率': '+0.11%'}
{'2018年6月排行': '8', '2017年6排行': '7', '开发语言': 'JavaScript', '评级': '2.495%', '变化率': '-0.53%'}
{'2018年6月排行': '9', '2017年6排行': '-', '开发语言': 'SQL', '评级': '2.339%', '变化率': '+2.34%'}
{'2018年6月排行': '10', '2017年6排行': '14', '开发语言': 'R', '评级': '1.452%', '变化率': '-0.70%'}
{'2018年6月排行': '11', '2017年6排行': '11', '开发语言': 'Ruby', '评级': '1.253%', '变化率': '-0.97%'}
{'2018年6月排行': '12', '2017年6排行': '18', '开发语言': 'Objective-C', '评级': '1.181%', '变化率': '-0.78%'}
{'2018年6月排行': '13', '2017年6排行': '16', '开发语言': 'Visual Basic', '评级': '1.154%', '变化率': '-0.86%'}
{'2018年6月排行': '14', '2017年6排行': '9', '开发语言': 'Perl', '评级': '1.147%', '变化率': '-1.16%'}
{'2018年6月排行': '15', '2017年6排行': '12', '开发语言': 'Swift', '评级': '1.145%', '变化率': '-1.06%'}
{'2018年6月排行': '16', '2017年6排行': '10', '开发语言': 'Assembly language', '评级': '0.915%', '变化率': '-1.34%'}
{'2018年6月排行': '17', '2017年6排行': '17', '开发语言': 'MATLAB', '评级': '0.894%', '变化率': '-1.10%'}
{'2018年6月排行': '18', '2017年6排行': '15', '开发语言': 'Go', '评级': '0.879%', '变化率': '-1.17%'}
{'2018年6月排行': '19', '2017年6排行': '13', '开发语言': 'Delphi/Object Pascal', '评级': '0.875%', '变化率': '-1.28%'}
{'2018年6月排行': '20', '2017年6排行': '20', '开发语言': 'PL/SQL', '评级': '0.848%', '变化率': '-0.72%'}

1.  创建 BeautifulSoup 对象
首先导入库 bs4   lxml  requests
1.  #encoding:UTF-8
2.  from bs4 import BeautifulSoup
3.  import lxml
4.  import requests
使用官方字符串来演示：
1.  html = """
2.  <html><head><title>The Dormouse's story</title></head>
3.  <body>
4.  <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
5.  <p class="story">Once upon a time there were three little sisters; and their names were
6.  <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
7.  <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
8.  <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
9.  and they lived at the bottom of a well.</p>
10. <p class="story">...</p>
11. """
创建 beautifulsoup 对象：
soup = BeautifulSoup(html,'lxml')  #创建 beautifulsoup 对象
还可以用本地 HTML 文件来创建对象：
soup1 = BeautifulSoup(open('index.html'))  #用本地 HTML 文件来创建对象
打印一下 soup 对象的内容，格式化输出：
print soup.prettify()  #打印 soup 对象的内容，格式化输出
输出结果，格式化打印出了它的内容，这个函数经常用到。
2.  四种对象
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
•   Tag
•   NavigableString
•   BeautifulSoup
•   Comment
（1）Tag
Tag就是 HTML 中的一个个标签，例如：
<title>The Dormouse's story</title>
用 BeautifulSoup 可以很方便地获取 Tags：
1.  print soup.title
2.  print soup.head
3.  print soup.a
4.  print soup.p
5.  print type(soup.a)
这种方式查找的是在所有内容中的第一个符合要求的标签。
对于 Tag，它有两个重要的属性，name 和 attrs ：
1.  print soup.name
2.  print soup.a.name
3.  print soup.attrs
4.  print soup.p.attrs #在这里，我们把 p 标签的所有属性打印输出了出来，得到的类型是一个字典。
5.  print soup.p['class'] #单独获取某个属性
6.  print soup.p.get('class') ##单独获取某个属性 跟上面一样的
可以对这些属性和内容等等进行修改：
soup.p['class']="newClass"
可以对这个属性进行删除：
del soup.p['class']
（2）NavigableString
得到了标签的内容用 .string 即可获取标签内部的文字，例如：
print soup.p.string
来检查一下它的类型：
1.  print type(soup.p.string)
2.  #<class 'bs4.element.NavigableString'>
可以看到它的类型是一个 NavigableString，翻译过来叫 可以遍历的字符串。
（3）BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称：
1.  print type(soup.name)
2.  #<type 'unicode'>
3.  print soup.name 
4.  # [document]
5.  print soup.attrs 
6.  #{} 空字典
（4）Comment
Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号。我们找一个带注释的标签：
1.  print soup.a
2.  print soup.a.string
3.  print type(soup.a.string)
运行结果如下：
1.   
2.  <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
3.   Elsie 
4.  <class 'bs4.element.Comment'>
a 标签里的内容实际上是注释，但是如果我们利用 .string 来输出它的内容，我们发现它已经把注释符号去掉了，所以这可能会给我们带来不必要的麻烦。
我们打印输出下它的类型，发现它是一个 Comment 类型，所以，我们在使用前最好做一下判断，判断代码如下：
1.  if type(soup.a.string)==bs4.element.Comment:
2.      print soup.a.string
上面的代码中，我们判断了它的类型，是否为 Comment 类型。
3.   遍历文档树
（1）直接子节点
tag 的 .content 属性可以将tag的子节点以列表的方式输出：
print soup.head.contents 
运行结果：
[<title>The Dormouse's story</title>]
输出方式为列表，我们可以用列表索引来获取它的某一个元素：
print soup.head.contents[0]
.children
它返回的不是一个 list，不过我们可以通过遍历获取所有子节点。我们打印输出 .children 看一下，可以发现它是一个 list 生成器对象：
print soup.head.children
运行结果：
<listiterator object at 0x7f71457f5710>
遍历一下获得里面的内容：
1.  for item in  soup.body.children:
2.      print item
（2）所有子孙节点
.contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，要获取其中的内容，我们需要对其进行遍历：
1.  for item in soup.descendants:
2.      print item
查看运行结果，可以发现，所有的节点都被打印出来了：
1.  <html><head><title>The Dormouse's story</title></head>
2.  <body>
3.  <p class="title" name="dromouse"><b>The Dormouse's story</b></p>
4.  <p class="story">Once upon a time there were three little sisters; and their names were
5.  <a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,
（3）节点内容
如果一个标签里面没有标签了，那么 .string 就会返回标签里面的内容。如果标签里面只有唯一的一个标签了，那么 .string 也会返回最里面的内容：
print soup.head.string
运行结果：
The Dormouse's story
第二种情况：
print soup.title.string
运行结果：
The Dormouse's story
如果tag包含了多个子节点,tag就无法确定，string 方法应该调用哪个子节点的内容, .string 的输出结果是 None：
print soup.html.string
运行结果：
None
（4）多个内容
.strings 获取多个内容，不过需要遍历获取，比如下面的例子：
1.  for string in soup.strings:
2.      print(repr(string))
输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容：
1.  for string in soup.stripped_strings:
2.      print(repr(string))
（5）父节点
1.  p = soup.p
2.  print p.parent.name
运行结果:
body
1.  content = soup.head.title.string
2.  print content.parent.name
运行结果：
title
（6）全部父节点
通过元素的 .parents 属性可以递归得到元素的所有父辈节点：
1.  content = soup.head.title.string
2.  for parent in  content.parents:
3.      print parent.name
（7）兄弟节点
兄弟节点可以理解为和本节点处在统一级的节点，.next_sibling 属性获取了该节点的下一个兄弟节点，.previous_sibling 属性获取了该节点的上一个兄弟节点，如果节点不存在，则返回 None
注意：实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白，因为空白或者换行也可以被视作一个节点，所以得到的结果可能是空白或者换行。
1.  print soup.p.next_sibling
2.  #       实际该处为空白
3.  print soup.p.prev_sibling
4.  #None   没有前一个兄弟节点，返回 None
5.  print soup.p.next_sibling.next_sibling
（8）全部兄弟节点
通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出：
1.  for sibling in soup.a.next_siblings:
2.      print(repr(sibling))
（9）前后节点
与 .next_sibling  .previous_sibling 不同，它并不是针对于兄弟节点，而是在所有节点，不分层次
比如 head 节点为：
<head><title>The Dormouse's story</title></head>
那么它的下一个节点便是 title，它是不分层次关系的。
1.  print soup.head.next_element
2.  #<title>The Dormouse's story</title>
（10）所有前后节点
通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容：
1.  for element in last_a_tag.next_elements:
2.      print(repr(element))
4.  搜索文档树
（1）find_all( name , attrs , recursive , text , **kwargs )
find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
•   name 参数
      A.传字符串
name 参数可以查找所有名字为 name 的tag,字符串对象会被自动忽略掉
最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的<b>标签：
1.  soup.find_all('b')
2.  # [<b>The Dormouse's story</b>]
       B.传正则表达式
如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容.下面例子中找出所有以b开头的标签,这表示<body>和<b>标签都应该被找到
1.  import re
2.  for tag in soup.find_all(re.compile("^b")):
3.      print(tag.name)
4.  # body
5.  # b
       C.传列表
如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回.下面代码找到文档中所有<a>标签和<b>标签：
1.  soup.find_all(["a", "b"])
2.  # [<b>The Dormouse's story</b>,
3.  #  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
4.  #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
5.  #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
       D.传 True
True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点：
1.  for tag in soup.find_all(True):
2.      print(tag.name)
3.  # html
4.  # head
5.  # title
6.  # body
7.  # p
8.  # b
9.  # p
10. # a
11. # a
       E.传方法
如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数  ,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则反回 False。下面方法校验了当前元素,如果包含 class 属性却不包含 id 属性,那么将返回 True:
1.  def has_class_but_no_id(tag):
2.      return tag.has_attr('class') and not tag.has_attr('id')
将这个方法作为参数传入 find_all() 方法,将得到所有<p>标签：
1.  soup.find_all(has_class_but_no_id)
2.  # [<p class="title"><b>The Dormouse's story</b></p>,
3.  #  <p class="story">Once upon a time there were...</p>,
4.  #  <p class="story">...</p>]
2）keyword 参数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性：
1.  2
2.  soup.find_all(id='link2')
3.  # [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性：
1.  soup.find_all(href=re.compile("elsie"))
2.  # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
使用多个指定名字的参数可以同时过滤tag的多个属性：
1.  soup.find_all(href=re.compile("elsie"), id='link1')
2.  # [<a class="sister" href="http://example.com/elsie" id="link1">three</a>]
在这里我们想用 class 过滤，不过 class 是 python 的关键词，这怎么办？加个下划线就可以：
1.  soup.find_all("a", class_="sister")
2.  # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
3.  #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
4.  #  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性：
1.  data_soup = BeautifulSoup('<div data-foo="value">foo!</div>')
2.  data_soup.find_all(data-foo="value")
3.  # SyntaxError: keyword can't be an expression
可以通过 find_all() 方法的 attrs 参数定义一个字典参数来搜索包含特殊属性的tag：
1.  data_soup.find_all(attrs={"data-foo": "value"})
2.  # [<div data-foo="value">foo!</div>]
3）text 参数
通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表, True：
1.  soup.find_all(text="Elsie")
2.  # [u'Elsie']
3.   
4.  soup.find_all(text=["Tillie", "Elsie", "Lacie"])
5.  # [u'Elsie', u'Lacie', u'Tillie']
6.   
7.  soup.find_all(text=re.compile("Dormouse"))
8.  [u"The Dormouse's story", u"The Dormouse's story"]
4）limit 参数
find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果.
文档树中有3个tag符合搜索条件,但结果只返回了2个,因为我们限制了返回数量：
1.  soup.find_all("a", limit=2)
2.  # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
3.  #  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
5）recursive 参数
调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False：
1.  soup.html.find_all("title")
2.  # [<title>The Dormouse's story</title>]
3.   
4.  soup.html.find_all("title", recursive=False)
（2）find( name , attrs , recursive , text , **kwargs )
它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果
（3）find_parents()  find_parent()
find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容
（4）find_next_siblings()  find_next_sibling()
这2个方法通过 .next_siblings 属性对当 tag 的所有后面解析的兄弟 tag 节点进行迭代, find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点
（5）find_previous_siblings()  find_previous_sibling()
这2个方法通过 .previous_siblings 属性对当前 tag 的前面解析的兄弟 tag 节点进行迭代, find_previous_siblings()方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点
（6）find_all_next()  find_next()
这2个方法通过 .next_elements 属性对当前 tag 的之后的 tag 和字符串进行迭代, find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点
（7）find_all_previous() 和 find_previous()
这2个方法通过 .previous_elements 属性对当前节点前面的 tag 和字符串进行迭代, find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点
注：以上（2）（3）（4）（5）（6）（7）方法参数用法与 find_all() 完全相同，原理均类似。
5.  CSS选择器
我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list
（1）通过标签名查找
1.  print soup.select('title') 
2.  #[<title>The Dormouse's story</title>]
1.  print soup.select('a')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
（2）通过类名查找
1.  print soup.select('.sister')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
（3）通过 id 名查找
1.  print soup.select('#link1')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]
（4）组合查找
组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开：
1.  print soup.select('p #link1')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]
直接子标签查找：
1.  print soup.select("head > title")
2.  #[<title>The Dormouse's story</title>]
（5）属性查找
查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到：
1.  print soup.select('a[class="sister"]')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
1.  print soup.select('a[href="http://example.com/elsie"]')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]
属性也可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格：
1.  print soup.select('p a[href="http://example.com/elsie"]')
2.  #[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]
以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容：
1.  soup = BeautifulSoup(html, 'lxml')
2.  print type(soup.select('title'))
3.  print soup.select('title')[0].get_text()
4.   
5.  for title in soup.select('title'):
6.      print title.get_text()

以上文字,是别的老师整理的.

相关阅读:
11 对象的构造
 10 问题分析一
 9 新型的类型转换
 8 C++ 中的新成员
 7 函数重载
 6 函数参数的扩展
 5 内联函数
 查找算法总结Java实现
 九大排序算法Java实现
 帝国cms所有一级栏目遍历，如果有子栏目的话，遍历出来
原文地址：https://www.cnblogs.com/hany-postq473111315/p/13819441.html