• 解析网页---BeautifulSoup解析库


    灵活,方便的网页解析库,处理高效
    安装
    pip install beautifulsoup4

    用法:

    所谓python标准库,即不需要安装额外插件即可使用

    基本使用

    标签选择器

    这种选择方式,它只返回第一个匹配到的内容






    children方法返回一个迭代器,需用for循环来来获取元素,内容同content一样

    descendants返回一个迭代器,内容为所有子节点包括孙子节点一并获取,子节点同孙子节点是并列的。


    标准选择器
    find_all(name,attrs,recursive,text,kwargs)**
    可根据标签名,属性,内容查找文档,以列表的形式返回所有的匹配项




    find(name,attrs,recursive,text,kwargs)**
    返回第一个匹配到的元素

    CSS选择器
    通过select()直接传入CSS选择器即可完成选择


    总结:一共三种选择器:标签选择器,标准选择器,CSS选择器。

    • 推荐使用lxml解析库,必要时使用html.parser
    • 标签选择器筛选功能弱但速度快
    • 建议使用find(),find_all()查询匹配单个结果或多个结果
    • 如对CSS选择器熟悉建议使用select()
  • 相关阅读:
    [CF864F]Cities Excursions
    [AGC012F]Prefix Median
    [TC-FindingFriends]Finding Friends
    [TC-HouseProtection]House Protection
    [CTSC2018]假面
    [CF877F]Ann and Books
    [CF509F]Progress Monitoring
    [CF735E/736C]Ostap and Tree
    CF611H New Year and Forgotten Tree
    CF538H Summer Dichotomy
  • 原文地址:https://www.cnblogs.com/tingshu/p/13944891.html
Copyright © 2020-2023  润新知