Xpath介绍?
网页由三部分组成: HTML, CSS, JaveScript, HTML页面标签存在层级关系, 即DOM树,在获取数据目标时可以根据网页层次关系定位标签, 在获取文本属性, 每个标签就是一个Dom
另外 xpath 还有其他领域会用到,如:爬虫框架 Scrapy, 手机APP框架 Appium
什么时候用css,什么时候xpath?
当查找元素比较简单,用css没错,如果复杂,用xpath比较好
Xpath 安装
# 使用步骤
1。xpath安装:pip install lxml
2. 使用步骤:
# 导包
from lxml import etree
res = requests.get(url= url, headers=headers)
tree = etree.HTML(res.text) # 加载直接从网页上爬取来的数据
tree = etree.parse(html,etree.HTMLParser()) # 加载本地HTML 页面,html 是文件名字
tag_or_attr = tree.xpath('xpath表达式')