• python爬虫00什么是爬虫


    用一个自动化的程序把网站背后的程序爬取下来。

    在互联网上许许多多的网站,他们都是托管在服务器上的,这些服务器24小时运行着,刻刻

    等待着别人的请求。所以,爬虫首先会模拟请求,就好像你在浏览器输入网址,然后回车那样,爬虫可以用到一些HTTp库指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以家长自己是浏览器,大多数服务器以为是浏览器发送请求,就直接返回数据给爬虫了。

    当然,有一些网站比较精明,所以他们会建立一些反爬虫机制。

    不同的情况下,服务器返回给我们的数据格式不一样,有HTML,JSON,二进制数据,处理完之后,保存方式也有数据库,硬盘,等等。

  • 相关阅读:
    2-3-4 tree留坑
    CCPC final Cockroaches
    对拍模板
    使用cronolog按日期分割日志
    linux git 命了
    变量加减乘除运算
    根据pom标签修改
    根据符号获取字符
    shell循环字符串数组
    git ssh key配置
  • 原文地址:https://www.cnblogs.com/hrnn/p/13303607.html
Copyright © 2020-2023  润新知