多公有云混合灾备架构-聆客在线

聆客在线是一款拥有公私混合能力的企业社交化协作平台,产品有以下特点

• 聆客结合私有部署与互联网运维,为重点行业、大中型企业提供应用与数据安全。

• 聆客既是应用市场也是应用工厂,通过标准产品与定制应用实现企业全面信息化。

• 聆客是一个快速迭代的在线服务平台、紧贴用户需求曲线进行产品规划。



前期聆客使用部署在原有公有云的系统为所有用户提供业务服务,拥有着十万以上的用户群体,支撑着数以百计的企业日常工作,并且平台支持公私混合部署架构,意味着公有云与客户的私有云之间由一条条专线打通互联,这种公私混合的方式既体现了公有云的开放性,也保障了私有云的安全性。



然而,随着平台系统业务日益增长,用户对聆客系统的服务可用性、数据保障性提出了更高要求,例如7*24小时服务,服务可用性高达99.9%,RPO(可以丢失的数据时间)目标: 10分钟”、”RTO(业务中断恢复的时间)目标:20分钟等等。因此,一次重大的故障将会严重降低用户对平台的信任度,为避免这种情况,多机房备用的建设显得格外重要,对此,我们推出极具保障力度的异地容灾备用设计方案,用于指导“灾备环境”的搭建工作。

核心问题

+客户面临的多重巨大挑战

降低对单一公有云供应商的依赖
当前系统使用原有公有云的服务器作为主体环境,同时也支持公私混合模式,因此部分客户的私有业务在其私有云服务器上运行。但当原有公有云机房出现重大灾害时,整个聆客业务就会被立刻中断,并且恢复时间不可估算。
减少总体成本的同时,灾备效果不能打折扣
选择AWS作为聆客的备用机房,解决当原有公有云机房出现重大灾害时导致的业务长时间中断问题,同时在恢复业务核心功能的前提下,达成两个指标“RPO(可以丢失的数据时间)目标: 10分钟”、”RTO(业务中断恢复的时间)目标:20分钟”。但毕竟定位的是灾备环境,因此整体的资金投入不能太高。

解决之道

+帮助客户巧妙应对多种难题

充分利用成熟同步技术,实现数据备份,通过网络加密保护传输安全。

为应用构建安全的VPC隔离网络,并区分公有和私有子网,在其中部署灾备的服务和数据库实例。在本地IDC、原有公有云以及AWS之间构建VPN通道,加密数据传输。在主中心中利用应用集群技术,将数据库和应用数据准实时同步到AWS的EC2实例中。一旦原有公有云机房出现严重故障,这些EC2实例会提升为主服务角色,为用户提供服务。

分布实施最小核心规模应对需求,进一步利用包年资源降低成本

第一阶段,以搭建容灾环境为主。以固定包年的方式运行数据库和应用存储类的EC2实例,实现机房数据准实时备份,其余的EC2实例为不启用状态,灾备机房切换后才使用AWS CLI Command将这些EC2启用,通过快速切换设计,将两个指标控制在指定时间内:“RPO(可以丢失的数据时间)目标: 10分钟”、”RTO(业务中断恢复的时间)目标:20分钟”。 第二阶段,进行服务组件替换,使用AWS的Elastic Cache for redis缓存服务和RDS数据库服务,减少人工运维压力,利用RDS数据库副本备份,在不影响系统正常运作的情况下,快速生成快照或者数据库备份副本,方便备份存档,数据库运维往轻量级方向发展,提升整体效率。



客户收益

● 通过多云灾备架构,降低单一供应商依赖,提升了业务健壮性

● 充分利用AWS的服务,实现数据的高可用与灾难恢复能力

● 在最少的成本下,实现了必要的RTO和RPO需求