• Python 爬虫-BeautifulSoup


    2017-07-26 10:10:11

    Beautiful Soup可以解析html 和 xml 格式的文件。

    Beautiful Soup库是解析、遍历、维护“标签树”的功能库。使用BeautifulSoup库非常简单,只需要两行代码,就可以完成BeautifulSoup类的创建,这里命名为soup,接下来就可以对soup进行相关处理了。一个BeautifulSoup类对应html或者xml的全部内容。

    BeautifulSoup库将任意html文件转换成utf-8格式

    一、解析器

    BeautifulSoup类创建的时候第二个参数是解析器,上面的代码中用的解析器为‘html.parser’,BeautifulSoup支持的解析器有:

    二、BeautifulSoup类的基本元素

     

    • 使用soup.tag来访问一个标签的内容,如:soup.title;soup.a等,这里的返回值为访问标签的第一个出现的值
    • 使用soup.tag.name可以得到当前标签的名字,返回值为字符串,如:soup.a.name 会返回字符串 ‘a’,也可以使用soup.a.parent.name来查看 a 标签父母的名字
    • 使用soup.tag.attrs可以得到当前标签的属性,返回值为一个字典,如果没有属性会返回一个空字典,如:soup.a.attrs 会返回 a 标签的属性信息
    • 使用soup.tag.string可以得到当前标签的字符串,如:soup.a.string 会返回 a 标签的内容字符串
    • 内容字符串有两种类型一是NavigableString类型,一种是Comment类型,Comment类型的格式是<p> <!-- This is an comment --></p>,在调用soup.p.string是会返回This is an comment,但是其类型是Comment类型。

    三、soup的内容遍历

    标签树的遍历有三种方式,即下行遍历,上行遍历和平行遍历。

    (1)下行遍历属性

     

    举例:

    #遍历儿子节点
    for child in soup.body.children:
        print(child)
    
    #遍历子孙节点
    for child in soup.body.descendants:
    print(child)

    值得注意的是子孙节点不仅包含标签,还包含标签之间的字符串类型,这点需要注意与排除。

    (2)上行遍历的属性

    soup.parent为空,需要进行区分,可以使用for循环对parents进行遍历:

    (3)平行遍历的属性

     

    #遍历后续节点
    for sibling in soup.a.next_sibling:
        print(sibling)
    
    #遍历前续节点
    for sibling in soup.a.previous_sibling:
        print(sibling)

    四、信息提取

    • name :  对标签名称的检索字符串,返回标签name的所有内容,并生成列表,也以使用列表一次查找多个标签;如果标签名称为TRUE,将返回所有的标签信息;也可以使用正则对返回的标签信息做筛选

    •   attrs: 对标签属性值的检索字符串,可标注属性检索,返回列表,属性值必须精确,如果不提供精确的值得话,会返回空列表,可以使用正则表达式进行非精确的匹配

    •  recursive: 是否对子孙全部检索,默认True

     

    •  string: <>…</>中字符串区域的检索字符串,需要加上string=‘’进行检索

    简写方式:

    扩展方法:

  • 相关阅读:
    2019.1.8兔子问题和汉诺塔问题的解决代码
    REST
    存储过程和函数练习
    十六、性能优化
    十五、MySQl日志
    Shell入门
    十四、数据备份
    十三、MySQL触发器
    十二、视图
    十一、MySQL锁
  • 原文地址:https://www.cnblogs.com/hyserendipity/p/7239105.html
Copyright © 2020-2023  润新知