作者:范军 (Frank Fan) 新浪微博:@frankfan7
在容灾设计中需要有个清晰的思路,能帮助我们既能考虑大局,又能照顾到细节。以商业需求为主导是必须的,而不是一上来就谈某个产品的具体功能。我总结了以下三个步骤:
一深入了解商业需求
上图列出了一些Business Parameters。摘自此文。
我们着重谈其中的的几个要素:
RTO(recovery time objective):灾难发生后要求在该时间内能恢复应用。
RPO(Recoverypoint objective):灾难发生后可以容忍数据的丢失的时间段。
理论上讲当然容灾方案支持RTO和RPO越小越好,但千万不能因为单纯追求最小值,而造成不必要高成本,也就是所说的OverEngineering。好的架构师应该从客户角度着想,提供满足需求的方案。
在和客户沟通的时候,一定要打破沙锅问到底,RTO和RPO的值是怎么来的?很多时候会发现没有人能说清楚。这就需要从应用上着手。比如有的应用自身已经实现了高可用性,比如MSCluster, LVS等等,支持该应用的Infrastructure不必过分考虑容灾。很多时候Hypervisor自己HA就能够满足了。
Risk
从严重程度(Severity)和可能性(likehood)来考虑。比如金融机构对此要求非常高,我的一个客户是无法接受因为系统宕机而造成的巨大损失。所以他们对风险评估后要求ZeroRTO和Zero RPO。
二 考虑影响关键架构设计的因素(Architecture Decisions)
Site:
Local:有的容灾方案在本地实施就能满足客户需求
Dedicated DR Sites:是否需要专门的DRSite,是由公司的IT战略和持续发展来决定的。当然成本上的影响很大。
Shared DR Site:共享的DR Site出了容灾外,可能也有其他用处。
Cloud Based Recovery:可以考虑云服务商的容灾方案。比如VMware混合云(vCHS)最近推出了专门针对容灾的方案。
StorageReplication
Software:完全使用软件实现数据同步,不依赖SANReplication。
SAN based:大多数高端存储设备自身支持SANBased的Replication。如果有很特别的需要,也可以借助软件来实现高级的SANReplication。比如EMC Recovery Point.
数据中心之间的网络
DR dedicated:完全是为DR专有的
MPLS:公用的。
根据带宽和同步的数据量来衡量该容灾方案是否能满足RTO和RPO需要
三 评估适合的产品(Product Mapping)
市场上的容灾产品和方案非常多。我们需要问自己一系列的问题,列出需要满足的Feature,然后再针对每个产品来评估各项指标。
方法一: 大概评估几个大的方面
比如 RTO,RPO,Cost,Flexibility,managabilitygbility 等等。
方法二 : 细致评估
产品1 |
产品2 |
|
需求1 |
Y |
Y |
需求2 |
N |
Y |
参考:
Disaster Prevention and Recovery Architecture from RMI
DRBC Design- Disaster Recovery and Business Continuity Fundamentals