福哥答案2020-08-05:
A.获取微博通过 pull 方式还是push 方式。
B.发布微博的频率要远小于阅读微博。
C.流量明星的发微博,和普通博主要区分对待,比如在 sharding的时候,也要考虑这个因素。
访问流量超过了系统阈值,导致一大堆请求在内存里面排队;并且前端可能已经超时,用户不断刷新重新发送请求,从而队列里面的请求越来越多,导致更大的雪崩。假设这些请求有三种,一种是在鹿晗这条微博下评论,一种是请求这条微博的评论的某一页,一种是用户转发这条微博。
这个问题可以从以下几个方面考虑:
1.明星微博流量倾斜严重,系统如果对每个用户同样对待,则系统流量不好掌控。应该考虑将大V,明星等等,特殊分区对待。并且,发送的微博越新,越应该分配更多资源。例如,根据用户对缓存和数据库进行分库分表,同时大V进入特定的资源更好的数据库和缓存。
2.考虑加入主动推送的机制,例如关注的大V发微博,评论更新等等,可以通过长连接推送控制,减少用户的主动请求。
3.热点微博评论,并不是需要每个用户每次刷新都必须看到最新的,可以存在一定的不一致性,所以缓存可以分层,同时为了用户的体验,可以根据用户id分配到某个实例,如果这个实例运转正常,就一直用这个实例,缓存分层:应用实例内缓存(例如请求之后,缓存本地,过10秒刷新) -> 公共缓存集群(例如redis集群,一主多从)同步 -> 数据库
4.用户转发微博数量也比较多,但是不一定需要所有人可见。流量高峰时,可以减缓或者暂停用户转发微博的同步,会有一段转发后只有自己可见的情况。