• python 之 BeautifulSoup 常用提取


    一、bs4信息提取后返回的数据类型

    soup.find('tbody')            ---> 返回结构是一个bs4.element.Tag
    
    soup.find('tbody').children   ---> 返回结果是一个 list.iter



    二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取

    举例标签:

    <tbody>
        <tr>
            <td>1<td>
            <td>清华大学<td>
            <td>北京市<td>
            <td>98.00<td>
            <td>100.00<td>
            <td>-1<td>
        <tr>
    </tbody>


    (1)查找html中所有'tbody'标签;

    >>>> soup.find_all('tbody')


    (2)查找html中tbody标签的所有<tr>子标签,是所有的<tr>。

    >>>> soup.find('tbody').children


    (3)查找html文档中第一个tbody标签

    >>>> soup.find('tbody')



    三、 常用查找之"名称"、"属性"、"字符串"信息提取

    举例标签:

    <img src = 'http://www.abc.com/123.jpg'>

    (1) tag.name
    >>>> 标签名称提取

    (2) tag.get('attrs')    

    >>>> tag标签中属性内容提取,比如图片链接提取:

    >>>> for x in soup.find_all('img'):
             x.get('src')
    

     
    (3)tag.string
    >>>> tag标签中所有字符串提取。

  • 相关阅读:
    mysql_pw 指令 数据库创建过程
    node.js+mysql环境搭建
    MySQL 学习
    express 应用创建及app.js详解
    .NET MD5加密解密代码
    Axure 部件的交互样式
    easyUI -messager -消息框
    Window01
    linkbutton
    easyUi-datagrid 真分页 + 工具栏添加控件
  • 原文地址:https://www.cnblogs.com/my1e3/p/6649419.html
Copyright © 2020-2023  润新知