• 大二下学期团队项目(系统学习python爬取)


    今日系统学习了python的bs4以及xpath解析:

    bs4解析

    1.实例化BeautifulSoup对象,将页面的原码数据加载。

    2.通过BeautifulSoup的属性与方法进行定位。

    soup.tagName 如soup.a获取第一个a标签

    soup.find(tagName)等同于soup.tagName

    soup.find('div',class_='song')定位到class=song的div

    soup.find_all(tagName)符合要求的所以标签

    select通过类选择器选择标签

    通过text,string get_text()可获取文本 string为直系的文本

    通过soup.a['href']可获取属性值。

    xpath解析

    实例化一个etree对象加载页面原码

    调用etree对象xpath方法结合xpath表达式实现标签定位 会返回Element对象

    /表示从根节点定位,一个层级

    //表示从任意节点定位,多个层级

    //div[@class="song"]获取class为song的div

    /p[1]通过索引获取,从1开始

    /text()获取标签文本,直系

    //text()获取标签的所有文本

    /@src 获取src属性

  • 相关阅读:
    day06
    day05
    day04
    day03
    day02
    day01
    python-study-42
    OI 知识总览 算法篇 之 图论
    OI 知识总览 算法篇 之 基础算法
    [CSP2019-JX] 散步 解题报告
  • 原文地址:https://www.cnblogs.com/fengchuiguobanxia/p/14702439.html
Copyright © 2020-2023  润新知