• 一、Python爬虫-认识爬虫


    认识爬虫

      爬虫是什么:

        爬取互联网上的信息

        数据挖掘->数据清洗(得到有效的信息)

      爬虫分类:

        通用爬虫:是搜索引擎抓取系统(百度,谷歌)的重要组成,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份

        抓取网页 -> 数据存储 -> 预处理 -> 提供检索,网站排名

        聚焦爬虫:是"面向特定主体需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息

    请求和响应

      前端:网页展现        

      中间层:数据处理       

      数据库:数据存储      

      服务器(响应)客户端(请求)           

    URL

      (Uniform/Universal Resource Locator):统一资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法

      

      基本格式:scheme://host[:port#]/path/.../[?query-string][#anchor]

      scheme:协议

      host:服务器的IP地址或者域名

      port#:服务器的端口(如果是走协议默认端口,缺省端口80)

      query-string:参数,发送给http服务器的数据

      anchor:锚(跳转到网页的指定锚点位置)

    GET请求和POST请求

      Get是从服务器上获取数据,Post是向服务器传输数据,Post更加安全

      Get请求:参数显示都显示在浏览器网址上,HTTP服务器根据该请求所包含的URL中的参数来产生响应内容,即"Get"请求的参数是URL的一部分

      Post请求:参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据,请求参数包含在"Content-Type"消息头里,指明该消息体的媒体类型和编码

    浏览器开发者工具

       按下F12,进入开发者模式;

  • 相关阅读:
    面试官:你和队友之间选一个淘汰,你怎么选?
    Spring Boot 如何干掉 if else?
    坑爹的 Java 可变参数,把我整得够惨。。
    厉害了,程序员的高考试卷,你能拿几分?
    6个步骤,全方位掌握 Kafka
    程序员逛酒吧,喝酒不是主要的。。
    图解 Java 垃圾回收机制,写得非常好!
    冲上云霄,Dubbo Go!
    人工智能都能写Java了!这款插件让你编程更轻松
    说了多少遍,姿势要对!
  • 原文地址:https://www.cnblogs.com/Just-a-calm-programmer/p/12739386.html
Copyright © 2020-2023  润新知