• 数据提取之二:bs4


    数据提取之bs4

    • beautifulsoup支持的解析器

    • 解析器 使用方法 优势 劣势
      Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
      lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快文档容错能力强 需要安装C语言库
      lxml XML 解析器 BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml") 速度快唯一支持XML的解析器 需要安装C语言库
      html5lib BeautifulSoup(markup, "html5lib") 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 速度慢不依赖外部扩展
    • bs4个常用的对象:

      1:tag 对象与XML或HTML原生文档中的tag相同   ---tag的属性操作方法与字典一样
      2:NavigatableString:用来包装tag中的字符串
      3:BeautifulSoup:表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
      4:Comment:注释及特殊字符串
      
    • 基本用法

      from bs4 import BeautifulSoup
      soup=BeautifulSoup(html,'lxml')  #首先解析为Unicode文档,然后BS会选择最合适的解析器来解析这段文档,这里是指定lxml解析
      print(soup.prettify())   #把要解析的字符串以标准的格式输出
      
    • 节点选择器:单个节点结构层次非常清晰,推荐使用

      1:获取名称--name获取title的节点名称
          soup.title.name
          
      2-1:获取属性的值
         	soup.p.attres   #获取p节点的所有属性值
          soup.p.attrs['title']   #获取title的属性值
         
      2-2:[]直接获取属性的值
          soup.p["name"]
          soup.p["title"] 
          
      3:获取节点的文本内容 string
          soup.p.string
          
      4:嵌套选择---由于html文档的嵌套,bs4.element.Tag可以继续调用节点进行选择
          soup.head.title.string    #输出title的文本内容
      
          
      5:关联选择
          子节点:
          选取节点p之后,获取它的直接子节点---返回一个列表["文本","子节点"]--不会单独列出子孙节点
          soup.p.contents
          soup.p.children   #返回一个生成器,遍历输出结果
          
          子孙节点:
          soup.p.descendants  #返回一个生成器,遍历输出结果
          
          父节点:parent
          祖先节点:parents
      
      • 方法选择器
      find_(name,attes,recursive,text,**kwargs):查询所有符合条件的元素,传入一些属性或文本
          
      1:name根据节点名查找元素--返回一个列表
       
      soup.find_all(name="a")
      soup.find_all('a')
      
      
      2:attrs根据一些属性来查询
      soup.find_all('a',id="test",class_="test")    #注意class_
      href=soup.a.attrs['href']
      soup.find_all(attrs={'class':'test'})
      
      3:text参数可用来匹配节点的文本,传入的形式可以使str和正则表达式
       soup.find_all(text=re.compile('link-1.html'))
      
      
      • CSS选择器

        CSS选择器需要调用select()方法
        soup.select('.panel .panel-heading')  #class
        soup.select('#list-2 .element')       # #-id
        soup.select('ul li')   #普通标签:选择所有ul节点下的所有li节点
        
        获取属性
        遍历列表之后,Tag类型
        ul['id']
        ul.attrs['id']
        
        获取文本:get_text()
        
        for li  in soup.select('li'):
            print("Get Text:",li.get_text())
            print("String:",li.string)
            
        
      • 注意点:

        ## string和strings、stripped_strings属性以及get_text方法:
        1. string:获取某个标签下的字符串[1个]。返回来的是个字符串。
        2. strings:tag中包含【多个】字符串,子孙字符串。返回来的是个生成器。
        2. stripped_strings:输出的字符串中可能包含了很多空格或空行。返回来的是个生成器。
        4. get_text():获取到tag中包含的所有文版内容包括子孙tag中的内容,并将结果作为Unicode字符串返回
        
  • 相关阅读:
    Spring学习(一):理解IoC容器
    Spring学习(零):我们为什么要学习Spring
    git push提交报错,提示文件过大,且去掉大文件也报同样的错误
    There was a problem with the instance info replicator
    Eureka配置instanceId显示IP
    Cannot execute request on any known server或DiscoveryClient_UNKNOWN/DESKTOP-MQ8D0C9:8761
    Hexo优化 | 创建sitemap站点地图并向Google提交
    matlab与python读取tiff文件
    Visual studio中编译和使用libpng和zlib
    关于softmax、argmax、softargmax
  • 原文地址:https://www.cnblogs.com/zhoujun007/p/12363991.html
Copyright © 2020-2023  润新知