Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:
Tag
NavigableString
BeautifulSoup
Comment
遍历文档树
(1)直接子节点
要点:.contents .children 属性
.contents tag 的 .content 属性可以将 tag 的子节点以列表的方式输出
2)所有子孙节点
知识点:.descendants 属性
.descendants .contents 和 .children 属性仅包含 tag 的直接子节点,.descendants 属性可以对所有 tag 的子孙节点进行递归循环,和 children 类似,我们也需要遍历获取其中的内容。