• CAP原理和BASE思想


    最近 ,有同学和我说 这个 cap 和 分布式系统 关系,故查询一下网络, 了解一下,摘抄如下:

    分布式领域CAP理论,
    C: Consistency(一致性), 数据一致更新,所有数据变动都是同步的,

    (如果系统对一个写操作返回成功,那么之后的读请求都必须读到这个新数据;如果返回失败,那么所有读操作都不能读到这个数据,对调用者而言数据具有强一致性(strong consistency) (又叫原子性 atomic、线性一致性 linearizable consistency)[5]
    A: Availability(可用性), 好的响应性能

    (所有读写请求在一定时间内得到响应,可终止、不会一直等待)
    P: Partition tolerance(分区容错性) 可靠性

    (在网络分区的情况下,被分隔的节点仍能正常对外服务)

    定理:任何分布式系统只可同时满足二点,没法三者兼顾。
    忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

    在某时刻如果满足AP,分隔的节点同时对外服务但不能相互通信,将导致状态不一致,即不能满足C;如果满足CP,网络分区的情况下为达成C,请求只能一直等待,即不满足A;如果要满足CA,在一定时间内要达到节点状态一致,要求不能出现网络分区,则不能满足P。

    C、A、P三者最多只能满足其中两个,和FLP定理一样,CAP定理也指示了一个不可达的结果(impossibility result)。

    CAP的工程启示

    CAP理论提出7、8年后,NoSql圈将CAP理论当作对抗传统关系型数据库的依据、阐明自己放宽对数据一致性(consistency)要求的正确性[6],随后引起了大范围关于CAP理论的讨论。

    CAP理论看似给我们出了一道3选2的选择题,但在工程实践中存在很多现实限制条件,需要我们做更多地考量与权衡,避免进入CAP认识误区[7]

    关系数据库的ACID模型拥有 高一致性 + 可用性 很难进行分区:
    Atomicity原子性:一个事务中所有操作都必须全部完成,要么全部不完成。
    Consistency一致性. 在事务开始或结束时,数据库应该在一致状态。
    Isolation隔离层. 事务将假定只有它自己在操作数据库,彼此不知晓。
    Durability. 一旦事务完成,就不能返回。
    跨数据库事务:2PC (two-phase commit), 2PC is the anti-scalability pattern (Pat Helland) 是反可伸缩模式的,JavaEE中的JTA事务可以支持2PC。因为2PC是反模式,尽量不要使用2PC,使用BASE来回避。

    BASE模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性或可靠性:
    Basically Available基本可用。支持分区失败(e.g. sharding碎片划分数据库)
    Soft state软状态 状态可以有一段时间不同步,异步。
    Eventually consistent最终一致,最终数据是一致的就可以了,而不是时时高一致。

    BASE思想的主要实现有
    1.按功能划分数据库
    2.sharding碎片

    BASE思想主要强调基本的可用性,如果你需要High 可用性,也就是纯粹的高性能,那么就要以一致性或容错性为牺牲,BASE思想的方案在性能上还是有潜力可挖的。

    现在NOSQL运动丰富了拓展了BASE思想,可按照具体情况定制特别方案,比如忽视一致性,获得高可用性等等,NOSQL应该有下面两个流派:
    1. Key-Value存储,如Amaze Dynamo等,可根据CAP三原则灵活选择不同倾向的数据库产品。
    2. 领域模型 + 分布式缓存 + 存储 (Qi4j和NoSql运动),可根据CAP三原则结合自己项目定制灵活的分布式方案,难度高。

    这两者共同点:都是关系数据库SQL以外的可选方案,逻辑随着数据分布,任何模型都可以自己持久化,将数据处理和数据存储分离,将读和写分离,存储可以是异步或同步,取决于对一致性的要求程度。

    不同点:NOSQL之类的Key-Value存储产品是和关系数据库头碰头的产品BOX,可以适合非Java如PHP RUBY等领域,是一种可以拿来就用的产品,而领域模型 + 分布式缓存 + 存储是一种复杂的架构解决方案,不是产品,但这种方式更灵活,更应该是架构师必须掌握的。

    补充:

    1、关于 P 的理解

    Partition字面意思是网络分区,即因网络因素将系统分隔为多个单独的部分,有人可能会说,网络分区的情况发生概率非常小啊,是不是不用考虑P,保证CA就好[8]。要理解P,我们看回CAP证明[4]中P的定义:

    In order to model partition tolerance, the network will be allowed to lose arbitrarily many messages sent from one node to another.

    网络分区的情况符合该定义,网络丢包的情况也符合以上定义,另外节点宕机,其他节点发往宕机节点的包也将丢失,这种情况同样符合定义。现实情况下我们面对的是一个不可靠的网络、有一定概率宕机的设备,这两个因素都会导致Partition,因而分布式系统实现中 P 是一个必须项,而不是可选项[9][10]

    对于分布式系统工程实践,CAP理论更合适的描述是:在满足分区容错的前提下,没有算法能同时满足数据一致性和服务可用性[11]

    In a network subject to communication failures, it is impossible for any web service to implement an atomic read/write shared memory that guarantees a response to every request.

    2、CA非0/1的选择

    P 是必选项,那3选2的选择题不就变成数据一致性(consistency)、服务可用性(availability) 2选1?工程实践中一致性有不同程度,可用性也有不同等级,在保证分区容错性的前提下,放宽约束后可以兼顾一致性和可用性,两者不是非此即彼[12]

    CAP定理证明中的一致性指强一致性,强一致性要求多节点组成的被调要能像单节点一样运作、操作具备原子性,数据在时间、时序上都有要求。如果放宽这些要求,还有其他一致性类型:

    • 序列一致性(sequential consistency)[13]:不要求时序一致,A操作先于B操作,在B操作后如果所有调用端读操作得到A操作的结果,满足序列一致性
    • 最终一致性(eventual consistency)[14]:放宽对时间的要求,在被调完成操作响应后的某个时间点,被调多个节点的数据最终达成一致

    可用性在CAP定理里指所有读写操作必须要能终止,实际应用中从主调、被调两个不同的视角,可用性具有不同的含义。当P(网络分区)出现时,主调可以只支持读操作,通过牺牲部分可用性达成数据一致。

    工程实践中,较常见的做法是通过异步拷贝副本(asynchronous replication)、quorum/NRW,实现在调用端看来数据强一致、被调端最终一致,在调用端看来服务可用、被调端允许部分节点不可用(或被网络分隔)的效果[15]

    3、跳出CAP

    CAP理论对实现分布式系统具有指导意义,但CAP理论并没有涵盖分布式工程实践中的所有重要因素。

    例如延时(latency),它是衡量系统可用性、与用户体验直接相关的一项重要指标[16]。CAP理论中的可用性要求操作能终止、不无休止地进行,除此之外,我们还关心到底需要多长时间能结束操作,这就是延时,它值得我们设计、实现分布式系统时单列出来考虑。

    延时与数据一致性也是一对“冤家”,如果要达到强一致性、多个副本数据一致,必然增加延时。加上延时的考量,我们得到一个CAP理论的修改版本PACELC[17]:如果出现P(网络分区),如何在A(服务可用性)、C(数据一致性)之间选择;否则,如何在L(延时)、C(数据一致性)之间选择。

    小结

    以上介绍了CAP理论的源起和发展,介绍了CAP理论给分布式系统工程实践带来的启示。

    CAP理论对分布式系统实现有非常重大的影响,我们可以根据自身的业务特点,在数据一致性和服务可用性之间作出倾向性地选择。通过放松约束条件,我们可以实现在不同时间点满足CAP(此CAP非CAP定理中的CAP,如C替换为最终一致性)[18][19][20]

    有非常非常多文章讨论和研究CAP理论,希望这篇对你认识和了解CAP理论有帮助。

    [1] Harvest, Yield, and Scalable Tolerant Systems, Armando Fox , Eric Brewer, 1999

    [2] Towards Robust Distributed Systems, Eric Brewer, 2000

    [3] Inktomi's wild ride - A personal view of the Internet bubble, Eric Brewer, 2004

    [4] Brewer’s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web, Seth Gilbert, Nancy Lynch, 2002

    [5] Linearizability: A Correctness Condition for Concurrent Objects, Maurice P. Herlihy,Jeannette M. Wing, 1990

    [6] Brewer's CAP Theorem - The kool aid Amazon and Ebay have been drinking, Julian Browne, 2009

    [7] CAP Theorem between Claims and Misunderstandings: What is to be Sacrificed?, Balla Wade Diack,Samba Ndiaye,Yahya Slimani, 2013

    [8] Errors in Database Systems, Eventual Consistency, and the CAP Theorem, Michael Stonebraker, 2010

    [9] CAP Confusion: Problems with 'partition tolerance', Henry Robinson, 2010

    [10] You Can’t Sacrifice Partition Tolerance, Coda Hale, 2010

    [11] Perspectives on the CAP Theorem, Seth Gilbert, Nancy Lynch, 2012

    [12] CAP Twelve Years Later: How the "Rules" Have Changed, Eric Brewer, 2012

    [13] How to Make a Multiprocessor Computer That Correctly Executes Multiprocess Programs, Lamport Leslie, 1979

    [14] Eventual Consistent Databases: State of the Art, Mawahib Elbushra , Jan Lindström, 2014

    [15] Eventually Consistent, Werner Vogels, 2008

    [16] Speed Matters for Google Web Search, Jake Brutlag, 2009

    [17] Consistency Tradeoffs in Modern Distributed Database System Design, Daniel J. Abadi, 2012

    [18] A CAP Solution (Proving Brewer Wrong), Guy's blog, 2008

    [19] How to beat the CAP theorem, nathanmarz , 2011

    [20] The CAP FAQ, Henry Robinson

  • 相关阅读:
    acdream.18.KIDx's Triangle(数学推导)
    upc.2219: A^X mod P(打表 && 超越快速幂(in some ways))
    山东省第四届acm.Rescue The Princess(数学推导)
    BC.5200.Trees(dp)
    BC.36.Gunner(hash)
    hdu.5195.DZY Loves Topological Sorting(topo排序 && 贪心)
    数组倒置算法扩展
    C# 传值和传引用 ( ref out in )
    C# 输出文件夹下的所有文件
    控制反转(自译)
  • 原文地址:https://www.cnblogs.com/nucdy/p/7483108.html
Copyright © 2020-2023  润新知