最近一家云超大规模企业经历的全球 IT 故障提醒了我们科技中的一个普遍真理:即使故障时间很短,停机和服务中断也是不可避免的。虽然此次事件影响范围广泛,扰乱了零售、银行、医疗保健和其他行业的服务,但这并非单个供应商或单个云独有的故障。它说明了中断可能发生在任何地方:在任何云区域,使用任何供应商。
关键的结论很明确:组织能够并且必须通过构建一个能够适应并在持续变化中蓬勃发展的弹性数据架构来掌控局面。在这篇博客中,我们将分享 Cloudera 客户如何凭借我们便携式架构的灵活性和工具,确保无缝的故障切换和恢复,从而独具优势,确保业务连续性。Cloudera 是唯一一家能将人工智能应用于任何地方数据的数据和人工智能平台公司:无论数据位于云端、数据中心还是边缘。
数据韧性是指组织能够抵御、快速恢复并最大限度地减少数据相关中断或故障的影响。这是一种主动的业务连续性方法,超越了备份或灾难恢复,以确保关键数据始终保持:
可用:需要时可供用户和应用程序访问(最大限度地减少恢复时间目标或 RTO)
完整/准确(数据完整性):未损坏且未被修改(最小化恢复点目标或 RPO)
安全:防止未经授权的访问、丢失或盗窃
构建真正的弹性涉及两个核心的、相互关联的支柱:实现可移植性的技术和经过验证的故障转移流程。
依赖单一提供商、单一云,甚至云中的单一区域,会造成关键的业务漏洞或单点故障。停机通常由硬件故障、软件问题、人为错误、自然灾害或网络攻击引起。弹性的目标是确保当一个环境出现故障时,您的操作可以无缝且自动地在其他地方继续。
这意味着您必须能够在任何地方进行故障切换——云区域之间、跨云服务提供商,甚至返回数据中心。业务运营必须继续,关键系统必须保持正常运行,无论最初中断发生在哪里。
技术可以提供恢复能力,但流程对于成功的业务连续性至关重要。太多的灾难恢复计划只写一次,很少重新审视,即使在人员和技术不断发展的情况下。一个经过充分审查的计划需要被记录、实践并定期重新审视,以确保组织在发生故障时能够执行。计划中的一些要素包括:
优先处理工作负载 以确保关键任务运营,如零售中的交易处理和医疗领域的远程监控,拥有最低的服务水平协议(SLA),适用于 RTO 和 RPO。
通过建立在环境之间进行故障转移以维持运营的能力来确保冗余和高可用性。
备份关键数据和元数据,制定保留策略和治理规则。
Cloudera 是唯一一家为全球数据提供一致云体验的数据和人工智能平台提供商。这赋予企业自由,让他们可以在云和数据中心之间转移数据和人工智能工作负载——没有摩擦,无惧供应商锁定——因此不再依赖于任何单一基础设施。因此,组织可以通过利用 Cloudera 来构建韧性架构,无论数据存放在何处,都能降低业务风险,并保持一致的运营和合规。
Cloudera 平台通过我们的解决方案和服务支持高可用和灾难容忍度,包括:
便携式数据服务:Cloudera 的平台,包括云原生数据服务和数据湖,能够在任何云端(AWS、Azure、Google 云)和本地 Kubernetes 上稳定运行。摆脱底层基础设施的束缚,使客户能够配置各种可用站点——混合不同的云和本地资源——从而大大减少对单一平台或供应商的依赖。
动态数据:Cloudera 数据流、Cloudera 流数据分析和 Cloudera Streams Messaging 使客户能够实时捕获、处理和分发数据。对于关键的实时工作负载,如欺诈检测和网络监控,潜在的停机可能带来重大业务影响。Cloudera 确保这些服务保持高可用性,并可以在不同环境中进行复制。
Replication Manager:这个 Cloudera 核心组件提供了简化的备份和恢复方法。它不仅复制数据,还复制与数据相关的元数据、关键安全和治理策略。这种复制实现了便捷的迁移、持续同步,更重要的是,能够通过在主作环境之外推广一个次级复制环境,实现快速故障切换,且数据丢失最小。
Open Data Lakehouse:Cloudera 的开放数据湖仓提供安全的数据管理和可携带的云原生数据分析,采用写入一次即可在任意位置运行的模式。这消除了在不同基础设施之间迁移时重构应用程序或工作负载所需的时间和成本。
图 1.Cloudera 提供"无处不在的 AI,不限位置的云体验“
这些能力共同使 Cloudera 客户能够自信地运行关键数据和 AI 工作负载,确保其最重要的业务流程几乎无停机和数据丢失,即使在基础设施层面的故障中也是如此。
对许多企业来说,最近的停机只是一个小插曲。但如果这场混乱是真正的灾难,比如战争呢?总部位于乌克兰的 AM-BITS 是一家为银行、电信和零售行业提供IT解决方案的公司,在地缘政治变动迫使组织迅速加速从本地系统向云迁移后,面临着保护和迁移客户关键任务数据的紧迫需求。典型的云迁移可能需要六个月或更长时间——这是许多企业无法承受的时间。
为应对这一连续性危机,AM-BITS 构建了一个由 Cloudera 驱动的现代多租户数据和人工智能平台。借助 Cloudera Shared Data Experience(Cloudera SDX),AM-BITS 迅速为客户的数据资产提供了“技术安全港”,将安全迁移数据到云的时间缩短了 50%。由于 Cloudera 可以在任何环境中无缝运行,AM-BITS 的客户获得了真正的灵活性:他们可以快速迁移到云端,但同时也保留了迁移到不同云或将数据带回本地部署的选项。通过利用 Cloudera,AM-BITS 将便携性转变为强大的业务连续性工具。
数据相关的中断和停机可能由硬件故障、软件问题、人为错误、自然灾害、网络攻击等引起。组织设计系统时必须考虑到这些故障点,并制定计划以快速且不造成重大中断地恢复 IT 系统和数据。
如需了解如何通过 Cloudera 打造韧性架构,请查看我们的 灾难恢复清单和资源,或联系我们的专业服务团队,帮助您设计韧性计划。
This may have been caused by one of the following: