XPath主要应用于 可扩展样式表语言转换 (eXtensible Stylesheet Language Transformations, XSLT)中。许多XML技术都用到了XPath。通过它可以定位指定的元素或属性(或其组建码块)。它的工作方式类似文件系统,从根节点开始按层次遍历,直到找到目标。
代码如下:
1 from lxml import etree 2 wb_data = """ 3 <html><div> 4 <ul> 5 <li class="item-0"><a href="link1.html">first item</a></li> 6 <li class="item-1"><a href="link2.html">second item</a></li> 7 <li class="item-inactive"><a href="link3.html">third item</a></li> 8 <li class="item-1"><a href="link4.html">fourth item</a></li> 9 <li class="item-0"><a href="link5.html">fifth item</a></li> 10 </ul> 11 </div> 12 </html> 13 """ 14 html = etree.HTML(wb_data) 15 html_data = html.xpath('/html/body/div/ul/li/a') 16 for i in html_data: 17 print(i.text)
结果如下: