发布于: Oct 10, 2022

为应对“删库”事件的发生企业开始建立自己的云数据中心灾备架构。“删库”事件,不只一次发生,这次突发事件影响很大,影响的不只是6天144小时的服务暂停、10亿港币蒸发,约300万商户苦苦等待,还有 SaaS 信息系统重大突发事件处理经验和教训,以及企业对灾难备份重视。其实,类似事件时有发生是有原因的。按照海因里希安全法则,此类事件属于300∶29∶1法则中的1/330。这个1/330从信息系统的视角分析。这意味着:当一个企业的信息系统持续有300起安全隐患或违规问题,非常可能要发生29起轻度问题或故障事件,另外还有一起突发的重大信息系统事故。

参照海因里希安全法则,无论是传统基于数据中心的架构的信息系统,还是基于云架构的 SaaS 信息系统,都会面临同样的风险,同类的事件。依据《中华人民共和国突发事件应对法》,参照中国银监会《银行业重要信息系统突发事件应急管理办法》的要求,“删库”事件属于人为破坏类事件,按照判断标准,如果事件影响用户规模覆盖两个省,业务无法正常开展达3个小时以上,或者用户规模覆盖一个省,业务无法正常开展达6个小时以上,就属于I级特别重大突发事件,也是最高等级突发事件。

从安全风险评估视角分析,一个重大安全事件发生,不是单个漏洞导致的,是由至少3个以上漏洞才导致发生重大事件的。所以,重大突发事件暴露问题或漏洞不是单方面的原因,而是多个方面原因长时间没有发现或得不到解决引起的。从安全管理体系的人、策略、流程、技术等四个维度分析。

首先,可能是人的问题,即数据库或系统运维人员的权限管控不严、或没有对特权人员进行岗位轮换和发展提升;

其次,可能是策略问题,即可能没有制定核心业务数据库的备份、存储和验证的策略,或者没有为重要数据库突发事件制定应急恢复和响应策略;

第三,可能是流程的问题,即没有制定远程登录维护的操作权限的审批流程、操作复核流程,或者没有制定重大突发事件应急演练流程;

第四,可能是技术的问题,即没有为数据库在启用的时候配置防删除安全功能,或没有为数据库远程登录密码提供双因素分开申请功能。

作为云服务商,我们无法代替客户管理自己的系统和数据库,也无法为我们客户恢复数据和系统。但是我们可以为客户提供多层面的数据安全保障功能选项和灵活多样的灾难恢复安全架构,以及自动化的恢复模版和高效的数据拷贝和恢复方案。

在 Amazon Web Services 云平台上,企业可以根据业务规模和实时性,更容易选择多种方式灾备架构,更低的成本构建云安全灾备架构。如果客户使用 Amazon Web Services 的 EC2、Amazon Aurora、RDS、DynamoDB、MySql、CloudEndure 等服务,在部署和启用的新服务器和数据库的时候,客户可以选择防删除的功能选项,同时客户还可以选择服务器的操作系统和数据库的定期的镜像快照选项,还可以把镜像透明加密并快速的复制到不同区域用于恢复和开拓新业务市场,通过专属、专用可轮换的数据密钥加密存储数据、镜像,保证在不同网络区域安全的恢复镜像快速和安全;以便在发生突发重大事件的时候,可以快速、安全恢复数据、恢复系统、恢复应用、恢复业务。客户甚至可以选择把已经安装好应用和数据库的操作系统,创建成一个AMI镜像模版,快速的在服务器上快速启用AMI镜像,快速的恢复系统、应用、数据和业务。所以在云上,客户可以更高效、更安全、更低成本购构建云上高可用应用架构的同时,也可以构建低成本的灾难恢复架构,在云上无论何时,企业都可以设计、构建、测试、实施和关闭不同等级的云安全灾备架构。

从业务连续性管理 (Business Continuity Management,简称 ”BCM” ) 视角分析,企业的突发的重大信息系统事件,在参考《公共安全业务连续性管理体系要求》(GB/T30146-2013)国家标准(等同采用国际标准 ISO22301:2012),按照国标《信息系统灾难恢复规范》(GB/T 20988-2007) 对信息系统的灾难恢复的6个等级分类,微盟“删库”事件应属于重要信息系统,而且是在线实时为微商客户提供服务;所以其灾难恢复等级应至少定为灾备“等级五”,即实时数据传输及完整设备支持,对数据要求是每天至少进行一次完全数据备份,且备份介质场外存放外,还要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。其中信息系统灾难恢复能力等级五的恢复时间目标(RTO)是数分钟到2天、恢复点目标(RPO)是0到30分钟。

相关文章