今日内容提纲
(1)爬虫原理(2)Requests请求库
一、爬虫原理
1、什么是互联网?
指的是由一堆网络设备,把一台台计算机互联到一起称之为互联网。
2、互联网建立的目的?
互联网建立的目的是为了数据的传递以及数据的分享。
3、什么是数据?
例如淘宝、京东商品信息.....
东方财富、雪球网的一些证券投资信息.....
链家、自如等房源信息....
12306
4、上网的全过程:
-普通用户:
打开浏览器->往目标连点发送请求->获取相应数据->渲染到浏览器中
-爬虫程序:
模拟浏览器->往目标站点发送请求->获取相应数据->提取有价值的数据->持久化到数据中
5、浏览器发送的是什么请求?
-客户端:
浏览器是一个软件->客户端的IP和端口
-服务端:
www.jd.com(京东域名)->NDS解析->京东服务端的IP和端口
客户端的IP和端口---->服务端的IP和端口发送请求可以建立链接获取相应数据
6、爬虫全过程
-发送请求(需要请求库:Requests请求库、Selenium请求库)
-获取相应数据(只需要网服务器发送请求、请求通过后会返回响应数据)
-解析并提取数据(需要解析库:热、BeautifulSoup4、Xpath....)
-保存到本地(文件处理、数据库、MongoDB存储库)
二、Requests请求库
1、安装与使用
-打开cmd
-输入pip3 install requests
2、实例
import requests import re response = requests.get('https://www.pearvideo.com/') res_list = re.findall('<a href="video_(.*?)"', response.text, re.S) for v_id in res_list: detail = 'https://www.pearvideo.com/video_' + v_id response = requests.get(detail) last_url = re.findall('srcUrl="(.*?)"', response.text, re.S)[0] last_name = re.findall('data-title="(.*?)"',response.text,re.S)[0] print(last_name) print(last_url) last_1 = requests.get(last_url) with open('%s.mp4' %last_name,'wb') as f: f.write(last_1.content)