4.17python爬取

今天学校python爬取，先总结一下，有许许多多的包需要安装，不过问题不大，之间cmd，打开python安装位置，使用pip install 相应的包就可以了

requets

requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多

因为是第三方库，所以使用前需要cmd安装

pip install requests

安装完成后import一下，正常则说明可以开始使用了。

基本用法：

requests.get()用于请求目标网站，类型是一个HTTPresponse类型

import requests
 
response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码
print(response.url)          # 打印请求url
print(response.headers)      # 打印头信息
print(response.cookies)      # 打印cookie信息
print(response.text)  #以文本形式打印网页源码
print(response.content) #以字节流形式打印

　　为你的请求添加头信息

import requests
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 ' 
                          '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' 
                          '(KHTML, like Gecko) Version/5.1 Safari/534.50'
 response = requests.get('http://www.baidu.com',headers=headers)

Beautiful Soup

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
 
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
 
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

html.parser　　　　文档容错能力强

lxml　　　　　　　速度块，容错能力强

xml　　　　　　　唯一支持xml的解析器，速度很快

html5lib　　　　　速度较慢，容错能力最强

实现简单的爬虫小练习

import requests
 
 
 
def getHTMLText(url):
    try:
        r = requests.get(url ,timeout = 30)
        r = r.raise_for_status()
        r.encoding = "utf-8"
        return r.text
    except:
        return ""
 
url = "http://www.baidu.com"
print(getHTMLText(url))

import requests
from bs4 import BeautifulSoup
 
url = "http://www.baidu.com"
r = requests.get(url)
r.encoding = "utf-8"
soup = BeautifulSoup(r ,"xml")
print(soup.title.arrts)
print(soup.title.name)
print(soup.title.string)

　　明日内容顶会热词的爬取

相关阅读:
hadoop集群的搭建
 EclipseAndroid打包签名发布安装失败闪退运行不了
 [目录]C#学习笔记
 [目录]搭建一个简单的WebGIS应用程序
 实现DataTables搜索框查询结果高亮显示
 解决将Excel表导入到SQL Server数据库时出现Text was truncated or one or more characters had no match in the target code错误
 将展示内容（div、iframe）放在Expand控件中
 [C#学习笔记1]用csc.exe和记事本写一个C#应用程序
 选中FeatureLayer元素并高亮显示
 在地图中调用显示FeatureLayer并进行render、popupTemplate、添加图例等相关内容的设置
原文地址：https://www.cnblogs.com/zyljal/p/14905859.html