• 3.5 爬虫身份识别与实现网络爬虫技术语言


    在爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,正规的爬虫一般会告诉对应
    网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份
    进行识别,我们称这个过程为爬虫的身份识别过程。

    那么,爬虫应该如何告知网站站长自己的身份呢?

    一般来说,爬虫在对网页进行爬取访问的时候,会通过HTTP请求中的User Agent字段告知
    自己的身份信息。一般爬虫访问一个网站的时候,首先会根据该站点下的Tobots.txt文件
    来确定可爬取的网页范围,Robots协议是需要网络爬虫共同遵守的协议,对于一些禁止的
    URL地址,网络爬虫则不应爬取访问。同时,如果爬虫在爬取某一个站点时进入死循环,造
    成该站点的服务压力过大,如果有正确的身份设置,那么该站点的站长则可以想办法联系到
    该爬虫,然后停止对应的爬虫程序。

    当然,有些爬虫会伪装成其他爬虫或浏览器去爬取网站,以获得一些额外数据,或者有些爬
    虫,会无视Robots协议的限制而任意爬取。从技术的角度来说,这些行为实现起来不难,
    但是这些行为是我们不提倡的,因为只有共同遵守一个良好的网络规则,才能够达到爬虫
    方和站点服务方的双赢。

    3.6 网络爬虫实现技术
    通过前面的学习,我们基本上对爬虫的基本理论知识有了比较全面的了解,那么,如果我
    们要实现网络爬虫技术,要开发自己的网络爬虫,可以使用哪些语言进行开发呢?

    开发网络爬虫的语言有很多,常见的语言有:Python、Java、PHP、Node.JS、C++、Go语言等。

  • 相关阅读:
    网页设计的12种颜色
    深入理解编辑过程
    数据压缩
    <Mastering KVM Virtualization>:第四章 使用libvirt创建你的第一台虚拟机
    <Mastering KVM Virtualization>:第三章 搭建独立的KVM虚拟化
    <Mastering KVM Virtualization>:第二章 KVM内部原理
    <Mastering KVM Virtualization>:第一章 了解Linux虚拟化
    本地设置
    Spring Data JPA之删除和修改
    在Mac Chrome上关闭跨域限制--disable-web-security
  • 原文地址:https://www.cnblogs.com/papapython/p/7462027.html
Copyright © 2020-2023  润新知