• python语言实现网络爬虫---requests库、BeautifulSoup4库


    一、引入问题

        python语言的简洁性以及脚本特点十分适合连接和网页处理,因此在python的计算生态中,与url和网页处理有关的第三方库有很多。这些库的作用不同,使用方法不同,用户的体验也不同。其中我们今天就先来了解requests库、BeautifulSoup库。

    二、requests库的使用

    (一)requests库的概述

        requests库是一个简洁且简单处理HTTP请求的第三方库,它的最大优点是程序编写过程更接近正常URL访问过程。这个库建立在python语言的urlib3库的基础上,类似这种在其他函数库之上再封装功能,提供更友好函数的方式在python语言中十分常见。在python生态圈里,任何人都有通过技术创新或体验创新发表意见和展示才华的机会。

    (二)介绍requests库的一些函数

    1、get()获取网页

    import requests
    #使用get方法打开淘宝连接
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
    print(type(r))

    结果:

     2、requests的一些基本方法

    import requests
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')

    print(r.status_code)#打印get请求的状态码
    print(r.encoding)#打印编码
    print(r.text)#打印请求到的内容
    print(r.cookies)
    print(r.json())#输出json格式数据

    结果:

     3、根据以上内容进行实际操作

    import requests
    r = requests.get('http://ip.taobao.com/service/getIpInfo2.php?ip=111.174.77.14')
    result = r.json()
    country = result['data']['country']
    area = result['data']['area']
    region = result['data']['region']
    print(country+area+region)

     结果:

     三、BeautifulSoup4库的使用

    (一)BeautifulSoup4库的概述

     BeautifulSoup是一种专门用于进行HTML/XML数据解析的一种描述语言,可以很好的分析和筛选HTML/XML这样的标记文档中的指定规则数据。在数据筛选过程中其基础技术是通过封装HTML DOM树实现的一种DOM操作,通过加载网页文档对象的形式,从文档对象树模型中获取目标数据。

    (二)介绍BeautifulSoup4库的一些使用函数

    import requests
    from bs4 import BeautifulSoup
    r = requests.get('http://www.baidu.com')
    r.encoding = None
    result = r.text
    bs = BeautifulSoup(result,'html.parser')
    print(bs.title)
    print(bs.title.text)

     结果:

  • 相关阅读:
    适配器设计模式初探(Java实现)
    装饰器设计模式初探及Java中实际应用举例
    主要介绍JavaEE中Maven Web 项目的结构及其它几个小问题
    基于alibaba开源的分布式数据同步系统安装配置文档otter之manager单实例配置
    基于alibaba开源的分布式数据同步系统安装配置文档otter之环境配置
    zabbix监控redis DB key的总数量
    C#操作Access数据库(创建&修改结构)
    WebDev.WebServer.exe遇到问题需要关闭
    DataSet
    ADO.NET
  • 原文地址:https://www.cnblogs.com/CJR-QYF/p/11810637.html
Copyright © 2020-2023  润新知