本次推荐的组合为xml.dom.minidom和xpath。其中xml.dom.minidom为python的标准库,无须安装。xpath为Google出品的开源项目py-dom-xpath。
安装py-dom-xpath:
- 从https://py-dom-xpath.googlecode.com/files/py-dom-xpath-0.1.tar.gz下载压缩包,解压。
- CD到py-dom-xpath-0.1目录
- 执行命令:C:python27python setup.py install
- 命令执行完成后,此目录多了两个文件夹,分别为build和dist,将/build/lib/文件夹下的xpath目录拷贝至C:Python27Lib目录,即安装完成。
测试用html文件,simple.html,内容如下:
1 <!DOCTYPE html> 2 <html> 3 <head> 4 <title>This is a simple html file</title> 5 <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> 6 </head> 7 <body> 8 <div> 9 <div>a</div> 10 <div>b</div> 11 <div>c</div> 12 </div> 13 </body> 14 </html>
python文件:
1 import xpath 2 import xml.dom.minidom 3 4 xml = xml.dom.minidom.parse('d:\GitHub\python27\simple.html') 5 doc = xml.documentElement 6 result = xpath.find('//div',doc)[0].toxml() 7 print(result)
值得注意的一个问题是,simple.html的第一行,即文档头<!DOCTYPE html>中的‘DOCTYPE’必须大写,否则xml.dom.minidom会解析失败。下一篇文章,将介绍另一个解析html的库,不存在此问题。