缓存在大型网站架构中的应用

缓存在大型网站架构中的应用

缓存的基本知识

在整个计算机体系构造中（无论是硬件层面还是软件层面），缓存都是无处不在的。

在计算机硬件构造中，由于两种介质的速度不匹配，高速介质在和低速介质交互时速度趋向低速方，这就导致了高速介质的资源闲置。而通过引入第三种介质（速度和成本介于两者中间），将低速方读写的部分内容数据保存在该介质中，高速方大多数情况下则无需和低速方直接交互，这样就能整体提升了交互的性能。这就是计算机体系中缓存的由来。比较典型的就是CPU缓存（CPU寄存器=>L1 cahce =>L2 cache =>内存=>硬盘），如图：

在计算机系统和应用软件层面，缓存更是无处不在。我们在使用浏览器上网时，很多静态资源会被缓存到本地。我们在手机上采用微信聊天时，很多好友的头像等数据会被缓存到手机中。在操作系统层面，I/O操作也会被内核缓存（一般将数据缓存在文件系统的缓存页中），当然，这个可能相比前两个场景更加抽象，但缓存的目的都是一致的，为了提升读写性能。

缓存在狭义上解决介质读写速度不匹配问题，广义上包括任何利用中间媒介提高速度的方法，包括：空间换时间，动态操作变为静态操作。

缓存（CACHE）和缓冲（BUFFER）

缓存：可以共享，多种数据，大小不固定，可以重复使用，已知数据，用于提高IO效率。

缓冲：不可以共享，单一数据，大小固定，读取后失效，命中100%，未知数据，用于减少IO次数。

缓存的属性

命中率：从缓存中返回正确数据的次数/总请求次数。

容量：超过这个值启用一定的策略：转移到磁盘；转移到远端；清空部分。

存储介质：内存、磁盘。

成本：开发成本、部署成本、硬件成本。

效率：SET效率、GET效率、序列化、哈希算法、分布式算法。

缓存的限制

由于价格的因素，缓存实现依赖的存储往往有大小限制——保存什么，舍弃什么，命中率。

缓存往往是从无到有的——在最初阶段不能发挥作用，在不命中的时候性能颠簸。

缓存的分类

按照存储介质来分：

内存（网站进程内、同服务器独立进程、独立服务器、分布式服务器组）。

磁盘（本地文件和数据库，独立服务器、分布式服务器组）。

缓存可以使用磁盘而不仅仅是内存。

按照存储的数据来分：

直接用于输出的整页（HTML、脚本样式、图片）。

片段页（可供多个客户端使用的HTML、脚本样式等）。

索引和聚合数据（空间换时间）。

耗时查询的结果数据。

和业务相关的大块数据（列表数据，引用数据）。

和业务相关的小级数据（行级数据，资源数据）。

和上下文（用户）相关的数据（活动数据）。

按照实现方式来分：

框架或引擎内置的缓存（比如ORM缓存和SQL SERVER缓存）。

安装特定的组件根据规则自动实现缓存（比如反向代理和输出缓存）。

需要由开发以编程方式实现的缓存（比如业务数据缓存）。

按照作用来分：

用于数据的读取（之后介绍的大部分内容都是基于此类缓存）

用于（允许丢失）数据的写入——写到缓存的队列中，再由工作线程提交处理（写入存储）

网站架构中的缓存

浏览器缓存（HTTP缓存头）

代理缓存（Squid Vanish CDN）

Web服务器缓存（内核缓存、应用缓存）

页面输出缓存（片段缓存、整页缓存）

业务数据缓存（本地缓存，分布式缓存）

其它缓存（ORM、数据库、搜索引擎等缓存）

这里每一块涉及的技术和内容都比较多，暂时不展开。

缓存的常见模式和策略（过期、更新、清除）

缓存的常见模式：

缓存的策略：

被动更新

在获取数据的时候，如果缓存中没有（可能缓存已经过期了），则尝试去数据库中获取，最后将最新的数据再写入到缓存中。

主动更新

更新数据的时候，主动更新缓存（直接将数据写入到缓存中）。

定时更新

通过独立的线程或者任务调度，定时将缓存数据进行更新。

通知更新

可以通过MQ等方式来通知缓存更新，这其实也是一种主动更新的策略，一定程度可以解耦。

不更新

对于有些不可能发生改变的数据，可以永久缓存起来。

缓存的过期（失效）策略：

绝对的过期时间

这种是最常见的方式。当到达指定时间后，缓存将自动失效。

平滑过期

类似session的超时机制，实际使用较少。

依赖方式

在.NET平台内置的本地缓存中，支持依赖数据库或文件来更新缓存，但实际开发中很少用。

永远不过期

对于有些不可能发生改变的数据，可以永久缓存起来。

缓存的清除（替换）策略：

RAND 删除随机数据，不能反映局部性。

SIZE 删除最大的数据。

FIFO，First In First Out 删除最先进入缓存的数据，不能反映局部性。

LFU，Least Frequently Used 删除一直以来最少被使用的数据。

LRU，Least Recently Used 删除最近最少使用的数据。

其中，LUR算法是最被广泛使用的。

常见模式：

延迟加载方式：A+F

预加载方式：B/C/E+I

下一篇跟大家聊聊缓存命中率、缓存的常见问题和应对方式...
相关阅读:
[LeetCode] 60. Permutation Sequence 序列排序
 [LeetCode] 31. Next Permutation 下一个排列
 [LeetCode] 47. Permutations II 全排列 II
[LeetCode] 46. Permutations 全排列
 [LeetCode] 77. Combinations 全组合
 利用 Json.Net 将对象转换成Json
使用sqlmetal工具自动生成SQL数据库的Linq类文件
 SharePoint 2013 设置显示详细错误信息修改位置总结
 本地访问Vmware虚机Web网站
 Web项目HttpContext.Current 为空
原文地址：https://www.cnblogs.com/dinglang/p/6108185.html

缓存在大型网站架构中的应用

缓存的基本知识

缓存的分类

网站架构中的缓存

缓存的常见模式和策略（过期、更新、清除）