一、XPath简介
1 简介
xpath是一门在XML文档中查找信息的语言
xpath可用来在XML文档中对元素和属性进行遍历
2.什么是 XPath
XPath 使用路径表达式在XML文档中进行导航
XPath 包含一个标准函数库
XPath 是XSLT中的主要元素
XPath是一个W3C标准
3 XPath路径表达式
XPath使用 路径表达式来选取XML文档中的节点或者节点集
这些路径表达式和在常规的电脑文件系统中看到表达式非常相似
4 XPath标准函数
XPath含有超过100个内建的函数
这些函数用于字符串值、数值、日期和时间比较、节点和 QName处理、序列处理、逻辑值等等
5. XPath在XSLT中的使用
XPath是XSLT标准中的主要元素,如果没有XPath方面的知识,就无法创建XSLT文档
XQuery和XPointer均构建于XPath表达式之上
XQuery1.0和XPath2.0共享相同的数据模型,并支持相同的函数和运算符
6.XPath 是 W3C 标准
XPath 于 1999 年 11 月 16 日 成为 W3C 标准
XPath 被设计为供 XSLT、XPointer 以及其他 XML 解析软件使用
二:XPath节点
1.XPath术语
① 节点
在XPath中,有7种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根节点)
XML文档是被作为节点树来对待的树的根被称为文档节点或者根节点
实例-XML文档
<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> </bookstore>
上述XML文档分析
<bookstore> (文档节点) <author>J K. Rowling</author> (元素节点) lang="en" (属性节点)
② 基本值(又称原子值,Atomic value)
基本值是无父
或无子
的节点
实例
J K. Rowling "en"
③ 项目(Item)
项目是基本值
或者节点
2.节点间关系
父(Parent)
每个元素以及属性都有1个父
在下面的例子中,book
元素是 title
、author
、year
以及 price
元素的父
<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book>
子(Children)
元素节点可有0
个、1
个或多个
子
在下面的例子中,title
、author
、year
以及 price
元素都是 book
元素的子
<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book>
同胞(Sibling)
拥有相同的父的节点
在下面的例子中,title
、author
、year
以及 price
元素都是同胞
<book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book>
先辈(Ancestor)
某节点的父
、父的父
,等等
在下面的例子中,title
元素的先辈是 book
元素和 bookstore
元素
<bookstore> <book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> </bookstore>
后代(Descendant)
某个节点的子
,子的子
,子子孙孙
在下面的例子中,bookstore
的后代是 book
、title
、author
、year
以及 price
元素
<bookstore> <book> <title>Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price> </book> </bookstore>
三:XPath语法
1.XML 实例文档
<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="eng">Learning XML</title> <price>39.95</price> </book> </bookstore>
2.选取节点
XPath 使用路径表达式在 XML 文档中选取节点,节点是通过沿着路径
或者 step
来选取的
下面列出了最有用的路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
在下面的表格中,列出了一些路径表达式以及表达式的结果:
路径表达式 | 结果 |
---|---|
bookstore | 选取 bookstore 元素的所有子节点 |
/bookstore | 选取根元素 bookstore 注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置 |
bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素 而不管它们位于 bookstore 之下的什么位置 |
//@lang | 选取名为 lang 的所有属性 |
3.谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点,谓语被嵌在[]
中
在下面的表格中,列出了带有谓语的一些路径表达式,以及表达式的结果:
路径表达式 | 结果 |
---|---|
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素 |
//title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素 |
//title[@lang='eng'] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00 |
/bookstore/book[price>35.00]//title | 选取 bookstore 元素中的 book 元素的所有 title 元素 且其中的 price 元素的值须大于 35.00 |
4.选取未知节点
XPath 通配符
可用来选取未知的 XML 元素
通配符 | 描述 |
---|---|
* | 匹配任何元素节点 |
@* | 匹配任何属性节点 |
node() | 匹配任何类型的节点 |
在下面的表格中,列出了一些路径表达式,以及这些表达式的结果:
路径表达式 | 结果 |
---|---|
/bookstore/* | 选取 bookstore 元素的所有子元素 |
//* | 选取文档中的所有元素 |
//title[@*] | 选取所有带有属性的 title 元素 |
5.选取若干路径
通过在路径表达式中使用|
运算符,可以选取若干个路径
在下面的表格中,列出了一些路径表达式,以及这些表达式的结果:
路径表达式 | 结果 |
---|---|
//book/title丨//book/price | 选取 book 元素的所有 title 和 price 元素 |
//title丨//price | 选取文档中的所有 title 和 price 元素 |
/bookstore/book/title丨//price | 选取属于 bookstore 元素的 book 元素的所有 title 元素 以及文档中所有的 price 元素 |
四:XPath 轴(Axes)
1.XML 实例文档
<?xml version="1.0" encoding="UTF-8"?> <bookstore> <book> <title lang="en">Harry Potter</title> <price>29.99</price> </book> <book> <title lang="en">Learning XML</title> <price>39.95</price> </book> </bookstore>
2.XPath 轴(Axes)
轴可定义相对于当前节点
的节点集
轴名称 | 结果 |
---|---|
ancestor | 选取当前节点的所有先辈(父、祖父等) |
ancestor-or-self | 选取当前节点的所有先辈(父、祖父等)以及当前节点本身 |
attribute | 选取当前节点的所有属性 |
child | 选取当前节点的所有子元素 |
descendant | 选取当前节点的所有后代元素(子、孙等) |
descendant-or-self | 选取当前节点的所有后代元素(子、孙等)以及当前节点本身 |
following | 选取文档中当前节点的结束标签之后的所有节点 |
following-sibling | 选取当前节点之后的所有兄弟节点 |
namespace | 选取当前节点的所有命名空间节点 |
parent | 选取当前节点的父节点 |
preceding | 选取文档中当前节点的开始标签之前的所有节点 |
preceding-sibling | 选取当前节点之前的所有同级节点 |
self | 选取当前节点 |
五:XPath 运算符
XPath 表达式可返回节点集、字符串、逻辑值以及数字
运算符 | 描述 | 实例 | 返回值 |
---|---|---|---|
丨 | 计算两个节点集 | //book 丨 //cd | 返回所有拥有 book 和 cd 元素的节点集 |
+ | 加法 | 6 + 4 | 10 |
- | 减法 | 6 - 4 | 2 |
* | 乘法 | 6 * 4 | 24 |
div | 除法 | 8 div 4 | 2 |
= | 等于 | price=9.80 | 如果 price 是 9.80,则返回 true 如果 price 是 9.90,则返回 false |
!= | 不等于 | price!=9.80 | 如果 price 是 9.90,则返回 true 如果 price 是 9.80,则返回 false |
< | 小于 | price<9.80 | 如果 price 是 9.00,则返回 true 如果 price 是 9.90,则返回 false |
<= | 小于或等于 | price<=9.80 | 如果 price 是 9.00,则返回 true 如果 price 是 9.90,则返回 false |
> | 大于 | price>9.80 | 如果 price 是 9.90,则返回 true 如果 price 是 9.80,则返回 false |
>= | 大于或等于 | price>=9.80 | 如果 price 是 9.90,则返回 true 如果 price 是 9.70,则返回 false |
or | 或 | price=9.80 or price=9.70 | 如果 price 是 9.80,则返回 true 如果 price 是 9.50,则返回 false |
and | 与 | price>9.00 and price<9.90 | 如果 price 是 9.80,则返回 true 如果 price 是 8.50,则返回 false |
mod | 计算除法的余数 | 5 mod 2 | 1 |
六:实例
doc=''' <html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a> <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a> <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a> <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a> <a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a> <a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a> </div> </body> </html> ''' from lxml import etree html=etree.HTML(doc) # html=etree.parse('search.html',etree.HTMLParser()) # 1 所有节点 # a=html.xpath('//*') # 2 指定节点(结果为列表) # a=html.xpath('//head') # 3 子节点,子孙节点 # a=html.xpath('//div/a') # a=html.xpath('//body/a') #无数据 # a=html.xpath('//body//a') # 4 父节点 # a=html.xpath('//body//a[@href="image1.html"]/..') # a=html.xpath('//body//a[1]/..') # 也可以这样 # a=html.xpath('//body//a[1]/parent::*') # 5 属性匹配 # a=html.xpath('//body//a[@href="image1.html"]') # 6 文本获取 # a=html.xpath('//body//a[@href="image1.html"]/text()') # 7 属性获取 # a=html.xpath('//body//a/@href') # # 注意从1 开始取(不是从0) # a=html.xpath('//body//a[1]/@href') # 8 属性多值匹配 # a 标签有多个class类,直接匹配就不可以了,需要用contains # a=html.xpath('//body//a[@class="li"]') # a=html.xpath('//body//a[contains(@class,"li")]') # a=html.xpath('//body//a[contains(@class,"li")]/text()') # 9 多属性匹配 # a=html.xpath('//body//a[contains(@class,"li") or @name="items"]') # a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()') # # a=html.xpath('//body//a[contains(@class,"li")]/text()') # 10 按序选择 # a=html.xpath('//a[2]/text()') # a=html.xpath('//a[2]/@href') # 取最后一个 # a=html.xpath('//a[last()]/@href') # 位置小于3的 # a=html.xpath('//a[position()<3]/@href') # 倒数第二个 # a=html.xpath('//a[last()-2]/@href') # 11 节点轴选择 # ancestor:祖先节点 # 使用了* 获取所有祖先节点 # a=html.xpath('//a/ancestor::*') # # 获取祖先节点中的div # a=html.xpath('//a/ancestor::div') # attribute:属性值 # a=html.xpath('//a[1]/attribute::*') # child:直接子节点 # a=html.xpath('//a[1]/child::*') # descendant:所有子孙节点 # a=html.xpath('//a[6]/descendant::*') # following:当前节点之后所有节点 # a=html.xpath('//a[1]/following::*') # a=html.xpath('//a[1]/following::*[1]/@href') # following-sibling:当前节点之后同级节点 # a=html.xpath('//a[1]/following-sibling::*') # a=html.xpath('//a[1]/following-sibling::a') # a=html.xpath('//a[1]/following-sibling::*[2]') # a=html.xpath('//a[1]/following-sibling::*[2]/@href') # print(a)