• [技术博客] BeautifulSoup4分析网页


    [技术博客] BeautifulSoup4分析网页

    使用BeautifulSoup4进行网页文本分析

    前言

    进行网络爬虫时我们需要从网页源代码中提取自己所需要的信息,分析整理后存入数据库中。

    在python中,我们向网页发出请求后可以获得字符串形式的源代码,然而众所周知,HTML代码结构相当混乱,想要通过字符串本身的查找方法获取信息基本上不可能。不过好消息是python也为我们提供了正则表达式这一字符串分析利器,通过恰当的编写正则表达式就可以高效准确地分析网页。然而对于一份长长的HTML源代码,从中分析规律、编写正则表达式、验证准确性,这一轮下来需要花费大量的时间。再加上网页的跳转,多个网页的分析,在没有爬取效率的要求下使用正则表达式几乎就是一个煎熬。因此一个成熟的网页爬虫利器BeautifulSoup就此诞生,它是一个可以从HTML或XML文件中提取数据的Python库,能够方便的提取自己所需要的信息。

    安装

    BeautifulSoup4的安装相当简单,只需在命令行中使用pip安装即可

    pip install beautifulsoup4  
    

    导入

    同样简单易懂

    from bs4 import BeautifulSoup
    

    网页解析库

    BeautifulSoup4默认支持Python的标准HTML解析库,可以不进行解析库的配置,但是依然建议安装lxml HTML解析库,它比Python的标准HTML解析库更加强大,速度快,容错能力强

    使用方法

    简易操作

    以下面的HTML代码举例

    html_doc = """
    <html><head><title>The Dormouse's story</title></head>
    <body>
    <p class="title"><b>The Dormouse's story</b></p>
    
    <p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>
    
    <p class="story">...</p>
    """
    

    创建BeautifulSoup对象以及简易信息获取

    from bs4 import BeautifulSoup
    
    # 使用lxml作为解析库
    soup = BeautifulSoup(html_doc,’lxml’)		
    
    # 获取title标签的所有内容
    print(soup.title) 
    
    # 获取title标签的名称
    print(soup.title.name) 
    
    # 获取title标签的文本内容
    print(soup.title.string) 
    
    # 获取head标签的所有内容
    print(soup.head) 
    
    # 获取第一个a标签中的所有内容
    print(soup.a) 
    
    # 获取所有的a标签中的所有内容
    print(soup.find_all("a"))
    
    # 获取id="link3"
    print(soup.find(id="link3")) 
    
    # 获取所有的a标签,并遍历打印a标签中的href的值
    for item in soup.find_all("a"): 
    	print(item.get("href")) 
    	
    # 获取所有的a标签,并遍历打印a标签的文本值
    for item in soup.find_all("a"): 
    	print(item.get_text())
    

    通过这些操作就可以进行简易的指定标签内数据的获取

    但是还是存在一些更加困难的场景

    CSS选择器

    BeautifulSoup整合了lxml的CSS选择器功能,使得API更易用。

    通过CSS选择器可以更加精确地获取所需内容

    我们可以像之前一样查找标签

    print(soup.select('a'))
    

    也可以像之前一样查找id

    print(soup.select('#link3'))
    

    我们还可以按照层级查找

    print(soup.select('table > tr > td'))
    

    我们还可以根据标签内部的属性查找

    print(soup.select('a[href="http://example.com/elsie"]'))
    

    我们甚至可以组合上面的方式查找

    print(soup.select('div > a[href='http://tieba.baidu.com'] > table #list > tr > td'))
    

    获取选项后我们可以查找其中的子项,输出它的各个属性,也可以直接输出其中包含的文本等

    print(soup.select('title')[0].get_text())		# 直接输出文本
    print(soup.select('title')[0].attrs['value'])	        # 输出它的value属性
    print(soup.select('title')[0].content)			# 输出它的子项
    

    除了这些功能以外BeautifulSoup4还有其他的许多优秀功能等待大家的挖掘,比如.children迭代器、.prettify()格式化输出等。

    希望大家能通过BeautifulSoup4的使用大大降低肝度。

  • 相关阅读:
    Java批量文件打包下载
    Java Swing
    空白文章
    linux 用户创建、管理、权限分配
    在虚拟机下安装hadoop集成环境(centos7+hadoop-2.6.4+jdk-7u79)
    《转载》POI导出excel日期格式
    java导出生成word(类似简历导出)
    《sqoop实现hdfs中的数据导出至mysql数据库》
    c# winform 自动关闭messagebox 模拟回车
    Ubuntu下启动/重启/停止apache服务器
  • 原文地址:https://www.cnblogs.com/cuogeihong/p/12961932.html
Copyright © 2020-2023  润新知