• 关于反爬虫的一些认知


    定义:

    用户

    人类用户使用的客户端

    老用户

    请求头中有服务端已记忆的、可识别的标识

    新用户

    请求头中无上述标识,初次访问时,服务端一般会通过响应头中Set-Cookie进行设置

    一个可信任的(主要由人类用户使用的)IP应该具备的特征:

    1. 短时间内不应该有大量来自新用户的请求;
    2. 老用户在单位时间内的请求频次、请求时间间隔方面应该具备足够的真实用户的特征;
    3. 老用户不应该高频请求特定格式的url,也不应该全天候/每天长时间地频繁发起请求;
    4. 若存在大量老用户在较短时间内集体消失的情况,此IP很可疑;
    5. 不应该频繁地有旧用户不再发起请求,然后新用户批量接入的情况;
    6. 单位时间段内来自此IP的所有用户的请求数不应该太多;

    服务端反爬虫时比较容易监控的特征值:

    1. 单位时间段内新用户的数量不能超过某个阀值
    2. 单位时间段内某个老用户发起请求的数量/速度不能超过某个阀值
    3. 特定时间点的用户总数/单位时间段内的用户数量的动态稳定值不能超过某个阀值
    4. 特定时间点的请求总数/单位时间段内的请求数量的动态稳定值不能超过某个阀值
    本文原创发表于http://www.cnblogs.com/qijj,转载请保留此声明。
  • 相关阅读:
    tensorflow_知识点
    Win10 1803 谷歌内核浏览器出现假死现象的解决方法汇总
    今日笑话
    留存率例子(待优化)
    安装ODOO13
    freepascal获取进程列表
    vba给图片添加logo
    wps中开始支持javascript了
    获取本地ip
    判断素数
  • 原文地址:https://www.cnblogs.com/qijj/p/6158764.html
Copyright © 2020-2023  润新知