压测机器: 100台docker
redis集群:16个分片
在开始压测的半个小时中,一直很稳定,ops稳定在20w左右。但是接下来突然ops断崖式下跌,ops降到了3w以下。然后持续一段时间,直至变为0。
问题排查:
1. 检查docker
docker都很健康,cpu占用率,内存占用率都正常,不到30%。网络状况也很好。
2. 检查mq
mq也正常,响应时间没有被可以拉长
3. 检查redis集群
redis集群中,发现所有分片内存基本上被打满
由于内存被打满,导致redis会强制进行键驱逐操作,此操作会拉长请求的响应时间,导致大量请求被阻塞。此时会有大量客户端连接操作:
果不其然,可以看到大量客户端连接瞬间涌入,造成整体的ops下降。
解决方案:
清理掉压满的分片即可。或者采取扩容方案。