• 爬虫避免环路应该使用的技术


    1、规范化URL             

      将URL转化为标准形式避免语法上的别名

    2、广度优先的爬行   

    3、节流

      限制一段时间机器人可以从一个web站点的页面数量

    4、限制URL的大小

    机器人会拒绝爬行超出特定长度的(通常是1kb)的URL。

    5、URL/站点黑名单

    维护一个与机器人环路和陷阱想对应的已知站点及URL列表。

    6、模式检测

    文件系统的符号链接和类似的错误配置所造成的环路会遵循某种模式。(比如 URL“subdir/image/subdir/image”)

    7、内容指纹

    使用内容指纹的机器人会获取页面内容中的字节,并计算出一个校验和,这个校验和是页面内容的压缩表示形式。

    8、人工监视

    设计的机器人应该提供诊断和日志功能,这样人类可以监视机器人的进展,如果发生了什么异常的事情就可以很快收到警告。

  • 相关阅读:
    AD 快捷键
    AD PCB 错误检查
    AD 在 PCB导出封装库
    AD PCB 机械层 画板步骤
    不同频率对PCB材料的要求
    RF 天线长度,通信距离估算
    RF硬件检查注意事项
    影响RSSI的因素
    阅读与思考
    面向对象特性分析
  • 原文地址:https://www.cnblogs.com/alway-july/p/8302836.html
Copyright © 2020-2023  润新知