谈缓存和Redis - 润新知

谈缓存和Redis

    自从上次分享《Redis到底该如何利用？》已经有1年多了，这1年经历了不少。从码了我们网站的第一行开始到现在，我们的缓存模块也不断在升级，这之中确实略有心得，最近也有朋友探讨缓存，觉得可以总结并分享一下拙见，期待能有更深入的研究。

缓存是什么？

    我时常在群里或者在社区里看到有人对缓存有诸多疑问，搞不清缓存的用途，分不清.NET Redis各驱动、中间件的区别和选择。缓存其实并不是什么看起来很深奥或者很难驾驭的东西，它一般是用来保存一些常用的数据到内存，以加快数据读取，减少直接访问DB流量以降低DB压力。

    比较常用的场景比如：

        静态的维表类数据，比如地址库，单位之类。
        用户Session
        一些实时性高，访问频率高的计算数据，比如用户访问次数，文章阅读量，用户黑名单之类。

    传统的架构里，缓存纯粹是DB数据的一份Copy，就像上面所说是为了程序能更快的读取数据的。既然是Copy，其实就不必关心丢失，甚至微小的误差。一定是最先保证DB，然后才是考虑缓存。另外现在分布式大行其道，集群比比皆是，缓存的应用就分成了多级，从单机内存到集中式缓存到最后穿透到DB。

    但是现在很多大型互联网架构里缓存是有不一样的应用的，比如新浪微博，他们使用Redis并不是简单的缓存，而是直接作为第一层的Storage，然后再异步写回DB。可以参考《新浪微博关系服务与Redis的故事》。

    最近遇到一次很有意思的讨论，说到用户黑名单功能的设计。有朋友DB依赖性超强，上来就是用户表里加字段呀?读取太慢？加索引啊之类之类。我觉得这个挺有意思的，以前我也是想当然的这样想。为什么？一开始做项目都是设计数据库开始，建模就是ER图，上来就是DB 三范式。以至于其实现在我都很难改变这样的思维。导致学习OO，DDD之类建模时，思想始终绕不过DB First的思维。如果绕开DB，思考缓存去设计这样的功能，可行性和性能都能提高不少。

    （缓存穿透：一般的缓存系统，都是按照key去缓存查询，如果不存在对应的value，就应该去后端系统查找（比如DB）。如果key对应的value是一定不存在的（数据库里面没有此值，也无法更新缓存，但DB也要被执行），并且对该key并发请求量很大，就会对后端系统造成很大的压力。这就叫做缓存穿透。

       解决方案：对查询结果为空的情况也进行缓存，缓存时间设置短一点，或者该key对应的数据insert了之后清理缓存。）

.NET下的缓存应用

    针对单机应用，内存缓存（System.Runtime.Caching）就足够，集群环境应该上集中式缓存，比较常用的是memcached和Redis，这两者的区别倒是可以好好说道说道。

    memcached更加的像内存缓存，功能单一，只能做普通的缓存操作（Put/Get/Remove...）

    Redis功能更加丰富一些，也支持更多的数据结构，更多的计算命令，因此例如Session等缓存模块更加的适合memcached，而带实时计算性质的更加适合Redis。不过同时用上两种服务，也只有大公司能干了，一般人像我，还是比较喜欢Redis，毕竟功能丰富。

    关于Redis的驱动，我也经常看到SeviceStack.Redis/StackExchange.Redis搞得大家不知道取舍。

    两个我都用，因为ServiceStack本来是开源免费后来为了支撑发展吧，人家顺便就在V4之后开始加入限制，开始收钱了。不过V3依然免费，使用的时候需要注意所有的依赖都要用V3以下哦。V3版本很遗憾，很多功能并不能很好的支持，比如Pub/Sub.

    StackExchange.Redis源自鼎鼎大名的StackOverFlow，他们有网站的收入，自然热衷开源免费。不过质量还是非常靠谱的，新功能支持的很好。

    以上在GitHub上一搜便有。

    另外一个开源项目CacheManager.NET最近也是很火，可参考GitHub相关开源代码。很多人搞不懂它是什么样的定位，它实际上是一个中间件，本身并不直接提供与缓存（Redismem）的对接API，当前的版本它是使用了StackExchange.Redis来作为驱动的，博客园里已经有了很详细的介绍，如《.Net缓存管理框架CacheManager》。它致力于屏蔽各种缓存服务的复杂度，提供简单一致的API，让开发者能够用一套代码，只要稍加配置就能使用MemroyCache/集中式缓存(redis/mem)。最强大的是它提供了多层缓存的方案（基于Redis Pub/Sub），只要简单的配置就达到了多层之间的缓存同步。（内部的原理是，通过Redis Pub/Sub，每当缓存变动就通知sub们自动remove掉响应的缓存）。我们公司最近的一次更新也切换到了CacheManager.NET，不得不说它真的很好用。

    （“集中式缓存"与"分布式缓存"的区别其实就在于“集中”与"非集中"的概念，其对象可能是服务器、内存条、硬盘等。

        比如：----1.服务器版本：

                ----.----缓存集中在一台服务器上，为集中式缓存。

                ----.----缓存分散在不同的服务器上，为分布式缓存。

                ----2.内存条版本：

                ----.----缓存集中在一台服务器的一条内存条上，为集中式缓存。

                ----.----缓存分散在一台服务器的不同内存条上，为分布式缓存。

                ----3.硬盘版本：

                ----.----缓存集中在一台服务器的一个硬盘上，为集中式缓存。

                ----.----缓存分散在一台服务器的不同硬盘上，为分布式缓存。）

合理设计缓存

1. 合理设计Key

    缓存最重要的特点的是其Key-Value形式，即使Redis的多样数据结构也是。Key-Value是保证其快速的根本原因,所以合理的Key，会让搜索更方便。

    这也会让一份数据根据场景被设计成多份不同的Key-Value，例如:我之前的文章中提到的模糊匹配功能，就会把name设计进key，而如果是简单的根据userid取用户信息，则会把userid设计进key。从这里也可以看出缓存并不介意保存很多一样的数据。

2. 合理的使用缓存失效时间

    上面提到缓存是可以丢失的，的确如果是内存缓存，它会随着应用的进程的终止而释放。除了这样的释放，缓存还可以被设置过期时间。为什么要如此设计呢？试想机器内存一定不会比硬盘大呀，空间有效，珍贵的资源自然是要保存尽可能常用的数据（热数据）。

    所以合理的设计失效时间会保持数据始终是最活跃的那一部分。当然失效时间也会引起，缓存雪崩等一系列问题，这里有一篇深入的文章值得去看看《Web开发基本准则-55实录-缓存策略》

    （缓存雪崩：当缓存服务器重启或者大量缓存集中在某一个时间段失效，这样在失效的时候，也会给后端系统(比如DB)带来很大压力。

       解决方案：

       1：在缓存失效后，通过加锁或者队列来控制读数据库写缓存的线程数量。比如对某个key只允许一个线程查询数据和写缓存，其他线程等待。

       2：不同的key，设置不同的过期时间，让缓存失效的时间点尽量均匀。

       3：做二级缓存，A1为原始缓存，A2为拷贝缓存，A1失效时，可以访问A2，A1缓存失效时间设置为短期，A2设置为长期（此点为补充））

原文地址：http://www.cnblogs.com/capqueen/p/CacheAgain.html
相关阅读:
Codefoces Gym 101652 【最大连续和】
HYSBZ 4034 【树链剖分】+【线段树】
Codeforces Gym 101291C【优先队列】
Codeforces gym 101291 M (最长交替子序列)【DP】
HDU 3308 LCIS (经典区间合并)【线段树】
POJ 3237 Tree (树链剖分+边权转点权)
POJ 2763 Housewife Wind (树链剖分+边权转点权)
P1054 等价表达式
 P1107 [BJWC2008]雷涛的小猫
 P1552 [APIO2012]派遣
原文地址：https://www.cnblogs.com/supersnowyao/p/8159607.html