厨师炒菜与网站反爬虫问题

上周部门同事中午一起吃饭时，有同事提到一个问题。具体这个问题干啥的忘记了，只记得是要你设计一个餐馆的工作流程。工作流程就啥也不说了，只是那天中午，我想到到的是合并炒菜。合并炒菜就是指，当某段时间内，如果有人要了同样的菜，那个这个菜就优先炒。当时就想，这在编程中和连接池很相似。

而12月份在公司的挖宝任务中，就有一个关于反某IP在单位时间内访问次数的任务。当时想到的方法是在内存中建立一个列表，每次访问都会根据这个列表的数据确定该IP是否有响应。一直觉得这个方案对高访问量来说不太妥当。

而今天突然想到，要是在原方案的基础上引入异步机制，可以极大改善性能。而这个性能是访问的性能，不是总体性能。

如果在内存中建立一张表A，这张表有多大，是否需要分布式，由访问量决定。每当有访问时，往该表插入数据。同时由另外一个线程或者进程，来对该表的数据进行分析。把分析结果更新到另外一张内存表 B。B表的数据量一般来说是小于A表。

比如，当A表存在某个IP，并且记录数大于3条，而且是在5秒钟以内。那么就会在B表中增加一条记录。

在访问时，如果B表中存在访问者IP的记录，那么就会中断响应。当然如何从B表中移除记录，还需要设计一套方案。

而上面的关于5秒内3条记录这种方式过于简单一些。完全可以任务，在10分钟内，如果请求数超过某个值，将出现一个手动输入的验证码。这样就可以规避掉很大的性能问题。我记得google的搜索，在一些条件下，也会需要输入验证码的。而完全中断响应的不太近人情，呵呵。

相关阅读:
avalon background-image写法
eslint 规则
性能优化 && 用户体验
gif
react 生命周期
git reset
js 正则表达式
大小写问题
python中的负数取模问题(一个大坑)
python中的__init_subclass__是什么？

原文地址：https://www.cnblogs.com/birdshover/p/1665570.html