python爬虫解析库学习

python爬虫解析库学习
一、xpath库使用：

　　1、基本规则：

　　　　

　　　2、将文件转为HTML对象：

　　　　
```
1 html = etree.parse('./test.html', etree.HTMLParser())
2 result = etree.tostring(html)
3 print(result.decode('utf-8'))
```
　　　　3、属性多值匹配：

　　　　//a[contains(@class,'li')]

　　　4、多属性匹配：

　　　　　　//a[@class="a" and @font="red"]

　　　5、按序选择：

　　　　

二、beautifulsoup库学习：

　　1、基本初始化：

　　　　

　　　　将HTML字符串用lxml格式来解析，并补全标签，创建html处理对象。

　　2、获取信息：

　　　　（1）获取title的name属性：

　　　　　　soup.title.name

　　　　（2）获取多属性：

　　　　　　

　　　　（3）children返回孩子节点：

　　　　（4）find_all函数：查找所有的节点。

　　　　　　·通过节点名称来查找：

　　　　　　　　soup.find_all(name='li')

　　　　　　·通过属性名来查找：

　　　　　　　　soup.find_all(attrs={'id':'link1'})

　　　　　　　　··通过文本来查找：

　　　　　　　　soup.find_all(text='') 用来匹配网页节点中的文本内容。

　　3、css选择器：

　　　　.select() 方法。参数内容和jquery相似。

　　　　返回内容为列表，类型是tag类型。

三、pyquery库：

　　1、初始化：

　　　　·通过HTML字符串

　　　　·通过url

　　　　·通过文件名。需要指出文件名。

　　2、常用函数：

　　　　（1）find() 方法

　　　　（2）children（）查找子结点

　　　　（3）查找父节点： parent()

　　　　（4）查找祖先节点：

　　　　　　parents()

　　　　（5）兄弟节点：

　　　　　　　　siblings() 方法

　　　　（6）对查找结果进行遍历：

　　　　　　　　.items()返回每一个节点。

　　　　（7）获取节点信息：

　　　　　　　　·获取属性：

　　　　　　　　　　.attrs（‘属性名’）
相关阅读:
yii2.0的学习之旅（一）
elasticSearch查询（一）
PHP--常用配置项
 php7和php5区别是什么
 做社交电商的朋友注意了！芬香的竞‌品出‌来了，小绿券，跟芬‌香几‌乎一‌模一样，但是这‌个邀请码3RIOQQ是刚刚流出的，我这里是第一手！
为什么强烈推荐 Java 程序员使用 Google Guava 编程！
MyBatis动态SQL（认真看看，以后写SQL就爽多了）
微软宣布加入 OpenJDK，打不过就改变 Java 未来！
IntelliJ 平台 2020 年路线图
 年底了，整理了一份程序员面试必看的文章合集
原文地址：https://www.cnblogs.com/monty12/p/9960572.html