ClouderaNOW了解 AI 智能体云爆炸和用于人工智能的数据编织| 4 月 8 日

立即注册
| 业务

2025 年是云提醒我们谁才是真正掌控者的一年

Suzy Tonini Headshot

为什么停机事件不断发生,以及您能做些什么

如果您将业务押注在单一云供应商身上,那么 2025 年将会非常艰难。去年 12 月,Snowflake的客户无助地眼睁睁看着模式更新在多个区域连续发生,导致查询被阻断了 13 小时。Databricks 用户经历了几天的 AI 服务质量下降

去年十月,亚马逊网络服务(AWS)的美国东部 1 区陷入停机 15 小时——一次影响 DynamoDB 的 DNS 错误导致超过 1,000 家公司服务瘫痪。在六月,Google Cloud 的服务控制二进制文件中的空指针异常导致多个系统(包括云存储、计算引擎和 BigQuery)在数小时内瘫痪,并对 Spotify、Discord 和 OpenAI 产生连锁反应。

在所有这些事件中,模式都是相同的:客户刷新状态页面,等待别人来解决问题。供应商之间的差异不在于是否会发生中断,而在于当它们发生时您有哪些选择。

模式:覆盖全球的单点故障

Snowflake 12 月的事件 是由一次向后不兼容的数据库模式更新引发的。版本不匹配导致 AWS、Microsoft Azure和Google Cloud Platform(GCP)多个区域的作失败或无限期卡顿。Snowflake 的通讯声明,除了那些已经预先配置了复制到未受影响地区的客户之外,没有其他解决方法。其他人都在等待。

Databricks 去年 12 月的故障 (持续多天)包括 Unity Catalog 问题、多个区域的计算下降,以及持续数天的 Mosaic AI 中断。状态更新多次提到他们“正在与云服务提供商合作,探讨潜在的缓解方案”。那句话概括了依赖链的重点:当 Azure 遇到问题时,Azure 区域上的 Databricks 客户也会遇到问题。

谷歌云 6 月事件也揭示了同样的漏洞。一个包含空白字段的错误策略被插入到全局配置表中,并在几秒钟内在全球范围内复制。损坏的数据触发了崩溃循环,导致核心服务中断了 7.5 小时。谷歌自己的状态仪表盘最初无法访问——SRE 团队甚至无法确认灾难的范围。

当故障是逻辑故障而不是物理故障时,区域冗余无济于事。当一个平台依赖全球协调的元数据或共享配置时,一个错误的更新会传播到所有地方。失败跟随您从一个地区到另一个地区。

此外,在这些场景中,基础设施是分布式的,但控制权仍然集中。当 Snowflake 的控制平面出现故障时,它们在底层运行在 AWS、Azure 和 Google 云上并不重要。当 Databricks 等待 Azure 修复某些问题时,多云营销并不会有所帮助。单点故障点是顶部的专有层。

分析师的观点

Gartner® 2025 年对云采纳趋势的分析估计,超过 50% 的组织到 2029 年将无法从多云实施中获得预期成果。核心问题:不同环境之间缺乏互操作性。

在《Forrester 预测 2026:云中断、私有云上的私有人工智能与新云崛起》中,该研究机构预测 2026 年至少发生两次重大多日云中断。云行业正在经历大规模基础设施转型,超大规模企业竞相建设 AI 原生数据中心。这项投资是有代价的:传统的 x86 和 ARM 环境正在被降低优先级,导致老化的基础设施在日益增长的复杂性中出现故障。

在同一篇 Forrester 预测文章中,他们估计至少有 15% 的企业将在 2026 年转向基于私有云的私有人工智能部署。驱动因素包括:AI 成本上升、数据锁定问题的担忧,以及依赖越来越多为他人优先事项优化的基础设施带来的运营风险。2025 年的停机事件预示着,当您的工作负载不是提供商最关心的问题时,会发生什么。

Cloudera 的韧性架构

大多数企业通过收购、影子 IT 或精选工具选择而非经过深思熟虑的架构规划,形成了“意外的多云”架构。他们的工作负载分散在各个提供商之间,但他们缺乏在出现问题时移动数据和工作负载的能力。

构建弹性架构涉及确保您的数据和人工智能平台能够实现可移植性并消除单点故障切换。

Cloudera 平台专为可移植性而设计,允许您在不同环境间切换以维护运营——工作负载和数据可以在 AWS、Azure、Google Cloud 和本地环境中移动,无需重写、没有,无惧供应商锁定。更新不会被强制作为全局、无法向后兼容的更改。

当不可避免的中断发生时,您可以选择:故障转移到另一个云,或将工作负载移回数据中心。您不会被困在观看状态页面——无论数据驻留在何处,您都能保持对数据的控制,并维持一致的操作和合规性。

想深入了解如何用 Cloudera 构建有韧性的架构,请阅读我们的博客:《数据韧性架构设计:用 Cloudera 确保业务连续性

展望未来

人工智能的构建正在给基础设施带来压力,分析公司指出未来将有更多的动荡:Forrester预测将出现多日停机,Gartner 预测将采用防御性的多云策略。到 2026 年,状态良好的企业将是那些将韧性视为一种架构原则而不是合规复选框的企业。

Cloudera 并没有开箱即用的跨云故障转移功能——事实上,没有任何其他公司提供这项功能。但我们在架构上已做好准备,能够以专有平台无法比拟的方式支持这种韧性。

如果您对 2025 年的停机感到不安,我们很乐意与您进行交流。因为云端不过是别人的电脑。当电脑出现问题时,您应该有别的地方可去。

要详细了解如何使用 Cloudera 进行弹性架构,请联系我们的专业服务团队,查看我们的产品演示,或注册免费试用 5 天

 

准备好了吗?

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.