• 一个例子讲明爬虫解析库xpath


    对爬取的网页进行数据解析有4中方式:

    re正则

    bs4

    xpath

    pyquery

    这里着重介绍xpath

    一。安装

    pip install lxml

    二。优点
    解析效率比较高
    通用性最强的

    三。实例
    from lxml import etree
    from random import choice
    import requests
    
    user_agents = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
        "User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"]
    headers = {
        "User-Agent":choice(user_agents)
        }
    url="https://www.qidian.com/mm/rank/yuepiao?chn=0"
    
    response=requests.get(url,headers=headers)
    e=etree.HTML(response.text)
    names=e.xpath('//p[@class="author"]/a[1]/text()')
    titles=e.xpath('//h4/a/text()')
    for name,title in zip(names,titles):
        print(name,':',title)
    结果是控制台输出显示解析到的作者和标题

    四。说明
    response.text 为获取的页面源文件编码

    e.xpath() 按xpath语法编写过滤内容

    xpath语法,可看了解,很简单的https://www.w3school.com.cn/xpath/xpath_syntax.asp

    五。xpath调试工具
    下载
    xpath helper插件
    将其拖入拓展程序

      安装完成后

     调整窗口如下

    bs4

  • 相关阅读:
    Middleware
    Languages
    Errors
    Config
    CLI Console
    Linux远程复制文件
    CentOS下安装Gitlab
    Maven_POM配置结构
    Maven_POM配置详解
    MySQL索引背后的数据结构及算法原理
  • 原文地址:https://www.cnblogs.com/hzcjd/p/12879161.html
Copyright © 2020-2023  润新知