Home Github Twitter


用公有云作容灾方案


容灾还是灾备

容灾是在灾难发生的时候具备系统和流量的切换能力。

灾备在我的理解里面除了有容灾的功能,还有备份和恢复的功能。

具体到实际的情况,如果私有云或者机房是作为主集群来用,而且已经有异地的备份手段,那么用公有云来做容灾就可以了,涉及到的工作范围就有了很大的区别。


指标

  • Recovery Time Objective, RTO, 恢复时间目标
  • Recovery Point Objective, RPO, 恢复点目标

RTO和RPO是最重要的容灾方案指标,RTO是灾难发生后恢复运行能力所需的时间,RPO是指恢复运行之后可以同步的时间目标,也就是允许多长时间的数据不可恢复。一般来讲RTO和RPO可以做不同级别的预案,但是要求越高,实施的成本就越高,所以可用预算也是一个很重要的计算因素。

AWS容灾选项


灾难恢复

数据的高可用是容灾方案最重要的一环,服务集群恢复工作但是没有数据也没有什么用,这里面的难点也非常多,留到后面再聊,这里主要过一下AWS上的容灾方案涉及到的过程。

在可用预算足够的情况下,异地多活是指标最好的方案,即线上流量始终有一部分是在备份集群中被服务的。或者是多活加上热备的方案,即数据始终在同步状态,备份集群在灾难恢复过程中,快速扩展服务能力之后切流。

准备阶段

恢复阶段


未完待续