• day03 Python爬虫


    今日内容提纲

    1)爬虫原理(2)Requests请求库

    一、爬虫原理

    1、什么是互联网?

    指的是由一堆网络设备,把一台台计算机互联到一起称之为互联网。

    2、互联网建立的目的?

    互联网建立的目的是为了数据的传递以及数据的分享。

    3、什么是数据?

    例如淘宝、京东商品信息.....

    东方财富、雪球网的一些证券投资信息.....

    链家、自如等房源信息....

    12306

    4、上网的全过程

     -普通用户:

          打开浏览器->往目标连点发送请求->获取相应数据->渲染到浏览器中

    -爬虫程序:

         模拟浏览器->往目标站点发送请求->获取相应数据->提取有价值的数据->持久化到数据中

    5、浏览器发送的是什么请求?

    -客户端:

         浏览器是一个软件->客户端的IP和端口

    -服务端:

    https://www.jd.com/

    www.jd.com(京东域名)->NDS解析->京东服务端的IP和端口

    客户端的IP和端口---->服务端的IP和端口发送请求可以建立链接获取相应数据

    6、爬虫全过程

    -发送请求(需要请求库:Requests请求库、Selenium请求库)

    -获取相应数据(只需要网服务器发送请求、请求通过后会返回响应数据)

    -解析并提取数据(需要解析库:热、BeautifulSoup4、Xpath....)

    -保存到本地(文件处理、数据库、MongoDB存储库)

    二、Requests请求库

    1、安装与使用

    -打开cmd

    -输入pip3 install requests

     2、实例

    import requests
    import re
    response = requests.get('https://www.pearvideo.com/')
    res_list = re.findall('<a href="video_(.*?)"', response.text, re.S)
    for v_id in res_list:
        detail = 'https://www.pearvideo.com/video_' + v_id
        response = requests.get(detail)
        last_url = re.findall('srcUrl="(.*?)"', response.text, re.S)[0]
        last_name = re.findall('data-title="(.*?)"',response.text,re.S)[0]
        print(last_name)
        print(last_url)
        last_1 = requests.get(last_url)
        with open('%s.mp4' %last_name,'wb') as f:
             f.write(last_1.content)
  • 相关阅读:
    convirt2.5在虚拟机上安装笔记
    myeclipse 自动提示JS
    Hadoop学习之HBase基础知识、操作和原理
    Hadoop学习之HBase的集群环境搭建
    学习面向对象之异常之三
    java学习面向对象之异常之二
    java学习面向对象之异常之一
    java学习面向对象之匿名内部类
    java学习面向对象之内部类
    java学习面向对象之多态
  • 原文地址:https://www.cnblogs.com/zwsmile/p/11094518.html
Copyright © 2020-2023  润新知