• 初识爬虫


    1.爬虫的概念

    (1)爬虫又叫网页蜘蛛,是模拟人操作客户端向服务器发起请求,抓取数据的自动化程序或脚本。
    (2)说明:
    ① 模拟:用爬虫程序伪装出人的行为,避免被服务器识别为爬虫程序;
    ② 客户端:浏览器、app都可以实现人与服务器之间的交互行为,应用客户端从服务器获取数据;
    ③ 自动化: 数据量较小可以人工获取,但往往公司里爬取的数据量在百万条、千万条级别,所以要程序自动化获取数据。

    2.爬虫分类

    (1) 通用爬虫:爬取网页数据,为搜索引擎提供检索服务;
    (2) 聚焦爬虫:针对某一领域爬取特定数据的爬虫,聚焦爬虫又分为深度爬虫和增量式爬虫。

    3.网络模型:OSI七层与TCP/IP五层

    一、OSI参考模型

    二、TCP/IP五层模型
    TCP/IP五层协议和OSI的七层协议对应关系如下。

    4.网络协议

    TCP协议与UDP协议:

    (1) 两者都是传输层协议

    (2) TCP协议,是一种面向连接的,可靠的,基于字节流的传输层通信协议,其具有以下4个特性:
    ① 有序性
    ② 正确性
    ③ 可靠性
    ④ 可控性

    (3) UDP协议,是用户数据协议,面向无连接的传输层协议,传输不可靠,其具有以下3个特点:
    ① 无链接,数据可能丢失或损坏
    ② 报文小,传输速度快
    ③ 吞吐量大的网络传输,可以在一定程度上承受数据丢失

  • 相关阅读:
    jquery键盘事件
    如何将奇艺、优酷等平台的视频嵌入到项目中
    ubuntu 10.04 常用 设置
    博客风格收集
    多张图片上传预览
    动态计算输入框字符个数
    Ubuntu Linux下设置IP的配置命令
    js事件浏览器兼容
    开源软件下载站
    PHPstrom的一个小技巧
  • 原文地址:https://www.cnblogs.com/ihszg/p/13466097.html
Copyright © 2020-2023  润新知