• Python学习——BeautifulSoup篇


    BeautifulSoup
        Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
         在本节的笔记中,笔者将会分享两次示例,来帮助大家熟悉BeautifulSoup库的使用,好的,闲话不说,我们来看一下示例。
     
    如何去定位元素
           下面我们来爬取一个网页,然后提取里面一些简单的数据
         import requests
         from bs4 import BeautifulSoup as bs
     
          url = "http://china.huanqiu.com/article/2016-07/9132061.html?from=bdwz"
          response = bs(requests.get(url).content,'html.parser')
    #获取页面内,h1标签的文章标题
          print("这篇文章的标题是:",response.h1.string)
    #使用find方法,寻找页面内name=source的content的内容
          print ("这篇文章的类型是:",response.find(attrs= {'name':'source'})['content'])
    #从find_all返回的列表中,查找content字段
         for content in response.find_all('meta',{'name':'source'}):
              print("这篇文章的类型是:",content['content'])
         我们来解读一下上面这段代码:
         1、导入requests库
         2、导入BeautifulSoup库的bs4方法命名为bs
         3、将目标地址赋予url
         4、使用bs对爬取到的web页面的二进制数据进行html的解析
         (这里使用的是requests.get().content返回的是爬取到的页面的二进制数据,之前我也是用的requests.get().text,但是会有乱码,具体原因不是很清楚。不过有前辈讲是因为requests.get().text 是将爬取到的内容进行默认的转译,而win的系统总是会出莫名其妙的问题)
         5、打印,爬取到的页面中的h1标签的页面标题(页面标签麻烦自行百度html页面标签)
         6、使用find方法,搜索爬取到的内容里,name=source的内容,打印content对应的数据
         7、从find_all返回的列表中,寻找name=source的content字段的数据并打印。
         (之前我是有尝试过使用find_all这个方法的,但是没有成功,因为我忽略了find_all方法返回的实际上是一个列表)
  • 相关阅读:
    C#实现将字符串转换成代码并执行
    Net实现钩子函数(Hook)以及通过SendMessage实现自动点击按钮和给文本框赋值
    异步与多线程的区别
    使用NODEJS实现JSONP的实例
    JS闭包作用域解析
    InterLocked学习笔记
    C#方法中的各类参数
    C# 数据类型详解以及变量、对象与内存
    通过Performance Monitor观察程序内存使用情况
    Git学习笔记(windows git之初体验)
  • 原文地址:https://www.cnblogs.com/rookie-c/p/5754817.html
Copyright © 2020-2023  润新知