xpath解析:XPath是一⻔在 XML 文档中查找信息的语言. XPath可用来在 XML文档中对元素和属性进行遍历. 而我们熟知的HTML恰巧属于XML的一个子集. 所以完全可以用xpath去查找html中的内容.
案例(注意:有的时候别人代码是直接引入etree,但我的会报错,解决方法就是引入html,之后etree=html.etree,即可):
from lxml import html
etree=html.etree tree = etree.parse("1.html") result = tree.xpath("/html/body/ul/li/a/@href") print(result) result = tree.xpath("/html/body/ul/li") for li in result: print(li.xpath("./a/@href")) # 局部解析 result = tree.xpath("//div[@class='job']/text()") # [@class='xxx']属性选取 text()获取⽂本 print(result)