CAP理论概述
1998 年来自柏克莱加州大学的计算机科学家 埃里克.布鲁尔(Eric Brewer) 提出分布式系统的三个基本指标:Consistency(一致性)
、Availability(可用性)
、Partition tolerance(分区容错)
,简称:CAP。
在2000年的分布式计算原则研讨大会上(PODC)埃里克.布鲁尔提出的一个猜想:在设计一个分布式系统时,CAP三者无法同时满足。在2002年,麻省理工学院(MIT)的 赛斯·吉尔伯特(Seth Gilbert) 和 南希·林奇(Nancy Lynch) 发表了布鲁尔猜想的证明,使之成为分布式计算系统的标准定理(也是理解分布式系统的起点)。定理讨论了在两个互相矛盾的请求到达彼此连接不通的两个不同的分布式节点的时候的处理方案。
CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer’s theorem), 它指出对于一个 分布式计算系统 来说,不可能同时满足以下三点
Consistency(一致性)
: 所有节点在同一时间具有相同的数据Availability(可用性)
:保证每个请求不管成功或者失败都有响应(也就是只要收到用户的请求,服务器都要在合理的时间内给出合理的响应)Partition tolerance(分区容错)
:系统中任意信息的丢失或失败不会影响系统的继续运作(也就是分布式系统遇到任何网络分区故障时,仍然可以对外提供一致性、可用性的服务)
什么是分区?
在分布式系统中,不同的节点通常分布在不同的子网络中,由于一些客观的因素,子网络之间出现了网络不通,但子网络内部的网络是正常的。从而导致了整个系统的环境被切分成了若干个孤立的区域,这就是分区。
大部分分布式系统都分布在不同的子网络,分区又是高概率事件,因此分布式系统,默认是支持分区容错的。由于Partition tolerance(分区容错)
的存在,导致Availability(可用性)
和Consistency(一致性)
互相矛盾,因此一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个,即分布式系统在AP和CP之间做选择。
因此,根据 CAP 定理将 NoSQL
数据库分成了满足 CA 、CP 和 AP 原则三 大类:
- CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
- CP - 满足一致性,分区容忍性的系统,通常性能不是特别高。
- AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
CAP 理论的经典解释,是忽略网络延迟的,但在实际中延迟和分区紧密相关。CAP 从理论变为落地的场景发生在操作的间歇,系统需要在这段时间内做出关于分区的一个重要决定:
- 取消操作,降低了系统的可用性
- 继续操作,可能损失系统一致性
2008年eBay的架构师Dan Pritchett源于对大规模分布式系统的实践总结,在ACM上发表文章提出BASE理论,BASE理论是对CAP理论的延伸。核心思想是通过牺牲一定的一致性(Strong Consistency
,CAP的一致性就是强一致性),可以采用适合的方式达到最终一致性(Eventual Consitency
),来最大程度的满足大部分分布式系统的业务需求。
Basically Available(基本可用)
:分布式系统在出现故障时,允许损失部分可用功能,保证核心功能可用
服务降级策略?
在双十一期大促期间,为了应对海量的访问,保证下单等核心功能的可用性,各大电商平台通常会采取降级服务策略:关闭评论等非核心功能)
Soft State(软状态/柔性事务)
:允许分布式系统中的数据存在中间状态,即:分布式系统不同节点的副本数据可以存在延迟,并认为该状态不影响分布式系统可用性Eventual Consistency(最终一致性)
:在分布式系统可接受的时间范围内,所有节点数据都将会达到一致,而可接受的时间范围受网络、业务、数据及复制技术等等因素影响。实际应用中,有可以分为以下几种- 因果一致性:因果一致性是指,如果进程A在更新完某个数据项后通知了进程B,那么进程B之后对该数据项的访问都应该能够获取到进程A更新后的最新值,并且如果进程B要对该数据项进行更新操作的话,务必基于进程A更新后的最新值,即不能发生丢失更新情况。与此同时,与进程A无因果关系的进程C的数据访问则没有这样的限制。
- 读写一致性:读己之所写是指,进程A更新一个数据项之后,它自己总是能够访问到更新过的最新值,而不会看到旧值。也就是说,对于单个数据获取者而言,其读取到的数据一定不会比自己上次写入的值旧。因此,读己之所写也可以看作是一种特殊的因果一致性。
- 会话一致性:会话一致性将对系统数据的访问过程框定在了一个会话当中:系统能保证在同一个有效的会话中实现“读己之所写”的一致性,也就是说,执行更新操作之后,客户端能够在同一个会话中始终读取到该数据项的最新值。
- 单调读一致性:单调读一致性是指如果一个进程从系统中读取出一个数据项的某个值后,那么系统对于该进程后续的任何数据访问都不应该返回更旧的值。
- 单调写一致性:单调写一致性是指,一个系统需要能够保证来自同一个进程的写操作被顺序地执行。
总的来说,BASE理论面向的是大型高可用可扩展的分布式系统,和传统事务的ACID特性使相反的,它完全不同于ACID的强一致性模型,而是提出通过牺牲强一致性来获得可用性,并允许数据在一段时间内是不一致的,但最终达到一致状态。但同时,在实际的分布式场景中,不同业务单元和组件对数据一致性的要求是不同的,因此在具体的分布式系统架构设计过程中,ACID特性与BASE理论往往又会结合在一起使用。
BASE理论是对CAP定理的延伸,是Redis、MongoDB等众多NoSQL数据库管理系统的理论基础。ACID是传统关系型数据库的设计理念,ACID 和 BASE代表截然不同的两种设计哲学,强一致性-可用性的两端。