解析网页---BeautifulSoup解析库 - 润新知

解析网页---BeautifulSoup解析库
灵活，方便的网页解析库，处理高效
安装：
pip install beautifulsoup4

用法：

所谓python标准库，即不需要安装额外插件即可使用

基本使用

标签选择器

这种选择方式，它只返回第一个匹配到的内容

children方法返回一个迭代器，需用for循环来来获取元素，内容同content一样

descendants返回一个迭代器，内容为所有子节点包括孙子节点一并获取，子节点同孙子节点是并列的。

标准选择器
find_all(name,attrs,recursive,text,kwargs)**
可根据标签名，属性，内容查找文档，以列表的形式返回所有的匹配项

find(name,attrs,recursive,text,kwargs)**
返回第一个匹配到的元素

CSS选择器
通过select（）直接传入CSS选择器即可完成选择

总结：一共三种选择器：标签选择器，标准选择器，CSS选择器。
- 推荐使用lxml解析库，必要时使用html.parser
- 标签选择器筛选功能弱但速度快
- 建议使用find(),find_all()查询匹配单个结果或多个结果
- 如对CSS选择器熟悉建议使用select()
相关阅读:
[CF864F]Cities Excursions
[AGC012F]Prefix Median
[TC-FindingFriends]Finding Friends
[TC-HouseProtection]House Protection
[CTSC2018]假面
 [CF877F]Ann and Books
[CF509F]Progress Monitoring
[CF735E/736C]Ostap and Tree
CF611H New Year and Forgotten Tree
CF538H Summer Dichotomy
原文地址：https://www.cnblogs.com/tingshu/p/13944891.html

Copyright © 2020-2023 润新知