背景
随着分布式事务的出现,传统的单机事务模型(ACID)已经无法胜任,尤其是对于一个高访问量、高并发的互联网分布式系统来说。
如果我们要求严格一致性,很可能就需要牺牲掉系统的可用性,反之亦然。但两者都是一个软件系统的刚需。
如何构建一个兼顾可用性和一致性的分布式系统成为了无数工程师探讨的难题。
CAP定理
2000年7月,Eric Brewer(加州大学教授)在ACMPODC (Principles of Distributed Computing)会议上,首次提出了CAP猜想。2年后,来自麻省理工学院的SethGilbert和Nancy Lynch从理论上证明了CAP猜想的可行性。从此,CAP理论正式在学术上成为了分布式计算领域的公认定理,并深深地影响了分布式计算的发展。
CAP理论的内容是:一个分布式系统不可能同时满足一致性(C:Consistency)、可用性(A:Availability)和分区容错性(P:Partition tolerance)这三个基本需求,最多只能同时满足其中的两项。
一致性
在分布式环境中,一致性是指数据在多个副本之间是否能够保持一致的特性。
可用性
可用性是指系统提供的服务必须一直处于可用的状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。
“有限的时间内”是一个在系统设计之初就设定好的系统运行指标,通常不同的系统之间会有很大的不同。
“返回结果”要求系统在完成对用户请求的处理后,返回一个正常的响应结果。
分区容错性
分布式系统在遇到任何网络分区故障的时候,仍然需要保证对外提供满足一致性和可用性的服务,除非是整个网络环境都发生了故障。
“网络分区”是指在分布式系统中,不同的节点分布在不同的子网络(机房或异地网络等)中,由于一些特殊的原因导致这些子网络之间出现网络不连通的状况,但各个子网的内部网络是正常的,从而导致整个系统的网络环境被切分成了若干个孤立的区域。
组成一个分布式系统的每个节点的加入与退出都可以看作是一个特殊的网络分区。
CAP定理示意图
CAP的应用范围
放弃CAP定理内容 | 说明 |
放弃P | 放弃P,意味着系统不再是一个分布式系统了。 |
放弃A | 一旦系统遇到网络分区或其它故障时,那么受到影响的服务需要等待一定的时间,在此期间系统无法对外提供正常的服务,即不可用。 |
放弃C | 放弃C,指的是放弃数据的强一致性(实时一致性),而保留数据的最终一致性。这就引入了一个时间窗口的概念,具体多久能够达到数据一致取决于系统的设计,主要包括主副本在不同节点之间的复制时间长短。 |
结论
对于一个分布式系统而言,P(分区容错性)是一个最基本的要求,也是一个分布式系统必然需要面对和解决的问题。因为分布式系统中的组件必然需要被部署到不同的节点形成子网络,同时网络问题也是一个必然会出现的异常情况。
系统架构设计师的精力则需要花在如何根据业务特点在C(一致性)和A(可用性)之间寻求平衡。