爱收集资源网

让事件恢复如初,企业IT系统出现问题后最常用的方法

网络整理 2022-05-18 08:12

疫情之下,不少企业的业务被迫短暂按下“暂停键”。

对于大多数企业而言,在 IT 紧急情况或中断后保持关键功能运行是成功的关键。

恢复事件也是当前企业IT系统出现问题后最常用的方法。

01

RTO 和 RPO 对于恢复事件至关重要

如今,企业越来越多地使用信息技术(IT)来增强其在市场上的竞争优势。IT系统的稳定性和可靠性直接关系到企业的业务能力。收入直线下降,甚至损害了公司的声誉。

在过去,人们可能需要数天甚至数周的时间才能在毫无准备的情况下解决此类事件。现在,企业可以通过制定灾难恢复和/或数据保护计划来提高其系统的业务连续性。

要了解业务连续性,我们首先需要了解两个非常重要的参数:恢复时间目标 (RTO) 和恢复点目标 (RPO)。所谓RTO(Recovery Time Objective)是指IT系统宕机到系统灾难后系统恢复的时间。RPO(Recovery Point Objective)是指系统数据可以恢复到之前的时间点。

用最直接的话来说,RTO 就是你的业务可以停止多长时间,RPO 是你的业务数据可以丢失多长时间。

对于企业IT系统来说,几分钟恢复业务的效果与几天恢复业务的效果完全不同。数据恢复到一天前或一周前,对公司业务的影响也不同。

02

全面评估健康风险,甲骨文是业务风险的“吹哨人”

在 2022 年全球最重要的 10 大业务风险中,业务中断排名第二,仅次于网络攻击的影响。各种原因造成的业务中断带来了前所未有的业务损失,越来越多的公司正在建立对业务中断的多种原因的弹性作为竞争优势。

同时,新冠疫情的爆发给不同行业、不同规模企业的正常经营带来了很大影响。这也对IT管理者提出了更高的要求。如何保证业务的持续运营,如何及时应对自然灾害等突发事件,成为企业必须考虑的问题。

近年来,业务中断事件频发且类型更加复杂,不仅促使企业认识到全面业务连续性计划的重要性,也促进了业务连续性管理的规范化。

在《GB/T20988-2007:信息系统容灾规范》中,提出了信息系统容灾能力等级的概念,针对各行业制定了RTO、RPO与信息系统容灾能力等级的指导对应关系。相应的容灾能力等级要求和指标体系提供参考。

数据库作为企业数据存储的“心脏”,在企业IT架构中占有重要地位,业务的正常运行离不开数据库系统的健壮运行。对于数据库来说,高可用的实现可能更加复杂,一个坏数据块也可能给业务连续性带来沉重打击。服务对用户的可用性不仅是发生故障时服务的持续提供,也是数据一致性的保证。

据甲骨文中国技术咨询部高级总监李佳介绍,甲骨文将于2021年开始对企业客户的IT系统健壮性,即业务连续性进行免费“检查”。以下简称MAA)健康风险评估。MAA 是一种源自 Oracle 30 多年实践和全球客户经验教训的方法,旨在解决世界上最严苛的业务连续性需求,减少工作负载和要求最苛刻的企业客户的计划内和计划外停机时间它也是面向服务级别的高可用性参考架构。通过对客户的架构进行全方位的评估和打分,Oracle帮助这些企业客户提前诊断出系统中的潜在问题,及时找出工作中的疏漏,梳理整个系统架构中需要解决的问题。整改,使问题“在它发生之前”得到解决。目前,已有不少客户从中受益。

在本次风险评估过程中,Oracle精心设计了风险评估框架,包括数据备份、本地高可用、数据容灾、应用容灾、容灾切换、网络配置、补丁策略、日常维护等8个维度。对企业业务至关重要的维度对企业客户的业务连续性保障体系进行全面评估。故障/灾难发生的计划和程序、运维团队的切换演练、定期的生产切换,都是顺利实现业务连续性的重要组成部分。通过对各个维度的技术和工艺的理解和分析,可以发现不足,展示企业客户业务连续性的健康状况,给出专业的评价意见,从业务连续性优化的方向提供长期和短期的解决方案。这确保了更好的业务连续性。

李佳表示,很多企业客户的IT系统其实并没有想象中那么可靠。比如一个使用Oracle的行业大客户,系统运维一直是由第三方运维,有独立的备份设备。但在实际检测过程中,Oracle发现客户的备份系统长达一年没有正确备份数据库数据。如果在此期间出现停机,很可能给客户带来巨大的损失。有的客户虽然对数据库进行了很好的保护,设计了本地和远程的容灾数据库,但是他们并没有在远程数据库中设计应用连接,甚至在应用服务器层面也没有网络连接,所以容灾应用无法接管。

免费软件的可持续性_小说软件哪个可以看免费小说_什么软件可以看片子免费

为了回馈客户的长期支持,甲骨文正在开展业务连续性-系统高可用性架构评估服务,进一步提高系统对客户的健壮性。评估通过对各个部门的客户访谈进行,包括系统运维部、网管部、数据中心、开发部等,了解客户的系统架构,从业务需要实现的RTO/RPO数据到当前系统的实际 RTO/RPO。RPO中的差距,从八个维度出发,对客户的备份策略进行评估,比如是否进行异地备份,多久备份一次,如何验证备份的有效性,备份策略是否满足业务需求,补丁策略如何实现,多个数据中心之间的距离,网络延迟,数据库容灾方式——同步还是异步等,应用与数据库的连接方式,是否有定期切换演练和具体演练手册,如何防范人为错误等,帮助客户在高可用架构评估过程中对存在的问题一一梳理,指出系统存在的问题并给出专业的整改建议,所有这些服务都是免费的。MAA 评估也被客户誉为系统安全的“告密者”,这完美描述了 Oracle 为帮助企业诊断和评估业务连续性风险所做的努力。数据库容灾方式——同步还是异步等,应用与数据库的连接方式,是否有定期切换演练和具体演练手册,如何防止人为失误等,帮助客户在高可用架构评估过程中对存在的问题一一梳理,指出系统存在的问题并给出专业的整改建议,服务全部免费。MAA 评估也被客户誉为系统安全的“告密者”,这完美描述了 Oracle 为帮助企业诊断和评估业务连续性风险所做的努力。数据库容灾方式——同步还是异步等,应用与数据库的连接方式,是否有定期切换演练和具体演练手册,如何防止人为失误等,帮助客户在高可用架构评估过程中对存在的问题一一梳理,指出系统存在的问题并给出专业的整改建议,服务全部免费。MAA 评估也被客户誉为系统安全的“告密者”,这完美描述了 Oracle 为帮助企业诊断和评估业务连续性风险所做的努力。是否有定期切换演练和具体演练手册,如何防止人为错误等,帮助客户在高可用架构评估过程中一一梳理存在的问题,指出系统中存在的问题,给予专业的整改建议,所有这些服务都是免费的。MAA 评估也被客户誉为系统安全的“告密者”,这完美描述了 Oracle 为帮助企业诊断和评估业务连续性风险所做的努力。是否有定期切换演练和具体演练手册,如何防止人为错误等,帮助客户在高可用架构评估过程中一一梳理存在的问题,指出系统中存在的问题,给予专业的整改建议免费软件的可持续性,所有这些服务都是免费的。MAA 评估也被客户誉为系统安全的“告密者”,这完美描述了 Oracle 为帮助企业诊断和评估业务连续性风险所做的努力。

03

整合客户实践,Oracle为业务连续性保驾护航

几十年来,Oracle 围绕数据核心 Oracle 数据库设计并实施了全面的高可用性功能,以满足最严苛的业务连续性需求。只有作为系统核心的数据库健康运行,才能保证整个业务系统的连续性,从而帮助企业建立真正的竞争优势。

据李佳介绍,甲骨文基于多年为客户服务的经验,设计了一个整体的面向服务的甲骨文最高可用性架构(MAA)。MAA 是一个 Oracle 最佳实践蓝图计划,基于经过验证的 Oracle 高可用性技术、端到端验证、专家建议和客户体验。MAA 的主要目标是以最低的成本和复杂性为 Oracle 客户实现最佳的高可用性、数据保护和灾难恢复。MAA 包含各种 HA 服务水平协议、配置实践和 HA 生命周期运营最佳实践的参考架构,适用于非工程系统、工程系统、非云和云部署免费软件的可持续性,尤其是在当今中国客户的任务关键型系统中,例如核心银行,

MAA 架构旨在为工作负载和要求最苛刻的企业客户提供减少计划内和计划外停机时间的解决方案。它支持不同的搭配方式,也支持多家硬件厂商的设备,无论是IBM、HPE,还是其他X86服务器或存储设备。可以实现四个主要目标:

1.数据保护:通过闪回减少数据丢失,通过零数据丢失恢复设备实现绝对的数据保护

2.主动复制:通过Active Data Guard、GoldenGate等数据库复制技术,实现远程双活/多活数据库容灾

3.横向扩展:通过RAC集群、ASM自动化分布式存储管理等技术,计算和存储资源本地高可用,数据库能力可横向、线性扩展。

4.连续可用性:通过应用连续性AC、全球数据服务GDS等技术,在本地集群节点之间,或本地生产与异地异地异地容灾站点之间实现数据库服务快速透明的故障转移;减轻计划内事件(例如软件升级、数据架构更改和补丁)和计划外事件压力(例如错误引起的硬件故障和软件崩溃)

如今,经过多年的积累,高可用架构也在多个方向取得了长足的进步。例如,Oracle Exadata Database Machine 等工程系统利用内置的 Oracle MAA 来提供 MAA 最佳实践和蓝图建议,并且是当今最有效和最好的系统。MAA 的全面保护已集成到 Oracle 云中的 Oracle 数据库服务。例如,Oracle 云(尤其是平台即服务产品)采用了 Oracle 几十年来一直依赖的优秀标准,以确保为客户提供最高可用性。

04

对接业务需求,Oracle打造分层增量架构

我们知道导致服务器故障的硬件问题通常是不可预测的,并且各种数据可用性通常会导致计划外停机,从而影响生产力和整体业务运营。如果修补或其他计划内维护操作需要停机(有时长达一天或更长时间),则数据库可用性可能会受到不同程度的影响。

为保证企业业务连续性,尽量减少对业务的影响,满足不同企业客户应用场景的需求,最大限度减少投资,Oracle将MAA分为青铜、银、金、白金四个等级。HA 解决方案满足不同的 RPO 和 RTO 要求,以响应最终用户和不同级别的业务运营的需求。

其中,Bronze 级别可以在生产环境中提供本地备份,并在其他数据中心保留备份副本。当由于人为错误导致底层数据损坏时,可以在短时间内恢复系统之前的状态,常用于开发和测试环境;银级将RTO和RPO提升到一个新的水平,保证数据库能够处理底层基础设施故障和所有意外的实例中断,进一步降低数据丢失的可能性,这种部署方式多用于一般应用;黄金级别可以帮助用户实现零数据丢失和快速故障转移,即使在发生大规模中断事件后,企业业务也能实现秒级快速恢复,大部分关键业务系统部署在黄金级别,尤其适用于金融、电信、政府、制造等业务连续性要求高的企业;铂金级别适用于多数据中心主动-主动业务连续性要求苛刻的企业客户,可以确保跨多个数据中心的最长正常运行时间。

李佳表示:“无论是在企业客户应用场景的深入探索,还是数据库技术的优化升级,甲骨文在数据库领域的创新始终坚持以客户需求和用户体验为先,帮助企业客户实现业务转型目标甚至超出他们的预期。”

我们有理由相信,Oracle 高可用性架构 (MAA) 解决方案将有效帮助不同类型的企业应对突发事件和灾难,为业务连续性和数据安全保驾护航。

oracle 数据库系统 企业架构