一个例子讲明爬虫解析库xpath

对爬取的网页进行数据解析有4中方式：

re正则

bs4

xpath

pyquery

这里着重介绍xpath

一。安装

pip install lxml

二。优点

解析效率比较高
通用性最强的

三。实例

from lxml import etree
from random import choice
import requests

user_agents = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
headers = {
    "User-Agent":choice(user_agents)
    }
url="https://www.qidian.com/mm/rank/yuepiao?chn=0"

response=requests.get(url,headers=headers)
e=etree.HTML(response.text)
names=e.xpath('//p[@class="author"]/a[1]/text()')
titles=e.xpath('//h4/a/text()')
for name,title in zip(names,titles):
    print(name,':',title)

结果是控制台输出显示解析到的作者和标题

四。说明

response.text 为获取的页面源文件编码

e.xpath() 按xpath语法编写过滤内容

xpath语法，可看了解，很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp 

五。xpath调试工具
下载

xpath helper插件
将其拖入拓展程序

安装完成后

调整窗口如下

bs4

相关阅读:
Middleware
Languages
Errors
Config
CLI Console
Linux远程复制文件
CentOS下安装Gitlab
Maven_POM配置结构
Maven_POM配置详解
MySQL索引背后的数据结构及算法原理

原文地址：https://www.cnblogs.com/hzcjd/p/12879161.html