• 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup



    开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful Soup的过程,第一篇是Beautiful Soup基础知识,后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫,抓取allitebook.com的书籍信息和ISBN码,再根据ISBN码去amazon.com抓取书籍对应的价格

    一、Beautiful Soup简介

    网络数据挖掘指的是从网站中获取数据的过程,数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。
    Beautiful Soup是一个Python库,可以从HTML或XML文件中获取数据,利用它你可以做很多事情,比如你可以持续解析某个商品的最新价格,以便跟踪价格的波动情况。

    二、Beautiful Soup安装(Mac)

    安装Beautiful Soup
    sudo pip3 install beautifulsoup4
     
    检验是否安装成功
    from bs4 import BeautifulSoup
    三、创建一个Beautiful Soup对象

    html_atag = """<html><body><p>Test html a tag example</p>
    <a href="http://www. allitebook.com">Home</a>
    <a href="http://www.allitebook.com/books">Books</a>
    </body>
    </html>"""
    soup = BeautifulSoup(html_atag, "html5lib")
    print(soup.a)
    四、查找内容

    find()方法
    在find()方法中传入节点名,例如ul,这样就可以获取第一个匹配的ul节点的内容,例如:
    #input
    html_markup = """<div>
    <ul id="students">
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    <li class="student">
    <div class="name">Lucy</div>
    <div class="age">25</div>
    </li>
    </ul>
    </div>"""
    student_entries = soup.find("ul")
    print(student_entries)
    
    #output
    <ul id="students">
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    <li class="student">
    <div class="name">Lucy</div>
    <div class="age">25</div>
    </li>
    </ul>

     找到ul节点后,通过观察html可以得知,ul下有2个li,每个li下有2个div,则通过student_entries.li可以获取第一个li节点的数据,继续通过student_entries.li.div可以获取第一个li下第一个div的数据,例如:

    #input
    print(student_entries.li)
    #output
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    
    #input
    print(student_entries.li.div)
    #output
    <div class="name">Carl</div>
    继续通过div.string可以获取div的内容:
    #input
    print(student_entries.li.div.string)
    #output
    'Carl'
    使用正则表达式查找:
    find()方法支持根据正则表达式查找内容,例如:
    #input
    import re
    email_id_example ="""<div>The below HTML has the information that has email ids.</div>
    abc@example.com
    <div>xyz@example.com</div>
    <span>foo@example.com</span>"""
    soup = BeautifulSoup(email_id_example,"lxml")
    emailid_regexp = re.compile("w+@w+.w+")
    first_email_id = soup.find(text=emailid_regexp)
    print(first_email_id)
    
    #output
    abc@example.com
    find_all()方法
    find()方法返回第一个匹配的内容,find_all()方法会返回所有匹配的内容列表,例如上面的根据正则表达式查找邮箱地址,将find()方法换成find_all()方法,则会返回所有匹配成功的内容:
    #input
    all_email_id = soup.find_all(text=emailid_regexp)
    print(all_email_id)
    
    #output
    ['abc@example.com', 'xyz@example.com', 'foo@example.com']
    find_parent()方法
    find_parent()方法往上查找内容,例如,从第一个li节点上使用find_parent()方法,可以获取父节点的内容:
    #input
    print(first_student)
    
    #output
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    
    #input
    all_students = first_student.find_parent('ul')
    print(all_students)
    
    #output
    <ul id="students">
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    <li class="student">
    <div class="name">Lucy</div>
    <div class="age">25</div>
    </li>
    </ul>
    find_next_sibling()方法
    sibling是兄弟姐妹的意思,find_next_sibling()方法获取下一个同级别的兄弟节点,例如:
    #input
    second_student = first_student.find_next_sibling()
    print(second_student)
    
    #output
    <li class="student">
    <div class="name">Lucy</div>
    <div class="age">25</div>
    </li>
    其它方法还有很多,例如:
    find_next()方法
    find_all_next()方法
    find_previous_sibling()方法
    find_all_previous()方法
    用法都差不多,这里不再一一赘述,具体请查看官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

    五、浏览内容

    浏览子节点
    使用子节点的标签名即可获取子节点的内容,例如:
    #input
    print(first_student)
    
    #output
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    
    #input
    name = first_student.div
    print(name)
    
    #output
    <div class="name">Carl</div>
    浏览父节点
    使用.parent属性可以浏览父节点,例如:
    #input
    print(name.parent)
    
    #output
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    浏览兄弟节点即同级节点,next_sibling和previous_sibling属性分别获取上一个和下一个兄弟节点。例如:
    #input
    print(first_student.next_sibling)
    
    #output
    <li class="student">
    <div class="name">Lucy</div>
    <div class="age">25</div>
    </li>
     

    六、修改内容

    修改标签的名字
    可以通过.name属性获取某个节点的标签名,同样将某个标签名赋值给.name属性可以很轻易改变标签的名称,例如:
    #input
    first_student
    #output
    <li class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </li>
    
    #input
    first_student.name
    #output
    'li'
    
    #input
    first_student.name = 'div'
    first_student.name
    #output
    'div'
    
    #input
    first_student
    #output
    <div class="student">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </div>
    修改标签的属性
    #input
    first_student['class'] = 'student_new'
    print(first_student)
    #output
    <div class="student_new">
    <div class="name">Carl</div>
    <div class="age">32</div>
    </div>
    注意:如果class属性没有的话,则此操作不会报错,而变为一个新增操作。

    删除一个标签的属性
    使用del方法可以将一个节点的某个属性删除。例如:
    #input 
    del first_student['class']
    print(first_student)
    
    #output
    <div>
    <div class="name">Carl</div>
    <div class="age">32</div>
    </div>
    修改标签的内容
    使用.string属性可以获取标签的内容值('Carl'),同样,对此属性的赋值操作也可以更该其值,例如:
    #input
    print(first_student.div.string)
    
    #output
    Carl
    
    #input
    first_student.div.string = 'carl_new'
    print(first_student.div.string)
    
    #output
    carl_new
    直接删除某个节点
    使用decompose()方法可以直接删除某个节点:
    #input 
    print(first_student)
    #output
    <li class="student">
    <div class="name">carl_new</div>
    <div class="age">32</div>
    </li>
    
    #input 
    first_student.div.decompose()
    print(first_student)
    #output
    <li class="student">
    <div class="age">32</div>
    </li>
    使用extract()方法同样可以删除某个节点,不过它和decompose()方法不同的是,extract()会返回被删除的这个节点的内容。
     
    我们处于大数据时代,对数据处理感兴趣的朋友欢迎查看另一个系列随笔:利用Python进行数据分析 基础系列随笔汇总
     
    接下来将利用这篇的Beautiful Soup基础知识完成一个简单的爬虫,分别获取两个网站的书籍信息和价格并组合在一起并输出到csv文件中。有兴趣的朋友欢迎关注本博客,也欢迎大家留言进行讨论。
     
    大数据,大数据分析、BeautifulSoup,Beautiful Soup入门,数据挖掘,数据分析,数据处理,pandas,网络爬虫,web scraper
  • 相关阅读:
    eWebEditor在ie9下按钮功能失效的解决办法
    FLV视频播放代码
    笔记 PHP常用 语句
    jquery 无刷新加载执行,显示数据
    常用的PHP与SQL语句
    PHP常用语句
    Ajax+php 无刷新更新数据.并将数据库操作改写成类.
    js下拉框联动代码
    PHP 更新功能 笔记
    MyEclipse8.5开发环境配置中SVN插件安装重点解析
  • 原文地址:https://www.cnblogs.com/sirkevin/p/5780457.html
Copyright © 2020-2023  润新知