分布式-CAP与BASE理论

CAP与BASE理论简介

Posted by Kang on September 11, 2019

CAP理论

  一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)
  讨论前提:分布式,多区域节点服务

一致性

  一致性指“all nodes see the same data at the same time”,即更新操作成功并返回客户端完成后,所有节点在同一时间的数据完全一致。所以,一致性,说的就是数据一致性。分布式的一致性。
  多要求在并发场景下的读写,一个节点更新后,另一个节点读取时,能立即感知到变更数据。

可用性

  可用性指“Reads and writes always succeed”,即服务一直可用,而且是正常响应时间,不出现用户操作失败或者访问超时等用户体验不好的情况。

分区容错性

  分布式系统在遇到某节点或网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务。比如:分布式系统中有某一个或者几个机器宕掉了,其他剩下的机器还能够正常运转满足系统需求,或者是机器之间有网络异常,将分布式系统分隔为独立的几个部分,各个部分还能维持分布式系统的运作,这样就具有好的分区容错性。
  以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。

三者关系

  由于通讯的不稳定是不可避免的,所以在目前的讨论中,”P” 必须满足。

为啥C与A之间是互斥的呢?

  同上面这个通讯原因,在多节点情况下,节点之间需要相互通讯进行数据通讯。假如有A、B两个节点,在强一致性的要求下,当A节点下的数据发生变化时,要求B节点也能及时变更,此时就要求B在完成数据更新前,保证“静默”状态,拒绝对外服务,以防止提供了非最新数据。所以对外表现为“不可用”,也即打破了“可用性[A]”。
  同样可以理解,若要求对外服务一直不中断。A、B两个节点在未完成同步时,这就要求节点有啥数据就对外提供啥数据,提供的数据可能非一致。

BASE理论

  BASE是Basically Available(基本可用)、Soft state(软状态)和 Eventually consistent(最终一致性)三个短语的缩写。BASE理论是对CAP中一致性和可用性权衡的结果,其来源于对大规模互联网系统分布式实践的总结, 是基于CAP定理逐步演化而来的。BASE理论的核心思想是:即使无法做到强一致性,但每个应用都可以根据自身业务特点,采用适当的方式来使系统达到最终一致性。

基本可用

  基本可用是指分布式系统在出现不可预知故障的时候,允许损失部分可用性—-注意,这绝不等价于系统不可用。比如:
(1)响应时间上的损失。正常情况下,一个在线搜索引擎需要在0.5秒之内返回给用户相应的查询结果,但由于出现故障,查询结果的响应时间增加了1~2秒
(2)系统功能上的损失:正常情况下,在一个电子商务网站上进行购物的时候,消费者几乎能够顺利完成每一笔订单,但是在一些节日大促购物高峰的时候,由于消费者的购物行为激增,为了保护购物系统的稳定性,部分消费者可能会被引导到一个降级页面

软状态

  软状态指允许系统中的数据存在中间状态,并认为该中间状态的存在不会影响系统的整体可用性,即允许系统在不同节点的数据副本之间进行数据同步的过程存在延时

最终一致性

  最终一致性强调的是所有的数据副本,在经过一段时间的同步之后,最终都能够达到一个一致的状态。因此,最终一致性的本质是需要系统保证最终数据能够达到一致,而不需要实时保证系统数据的强一致性。