Cloudera 最新研究: 企业 AI 和现代数据架构现状

阅读报告
概览

为什么采用Apache Iceberg?

Apache Iceberg 是一种专为实现大规模分析而构建的开放式表格式。它提供了 SQL 表的可靠性和简单性,可直接在数据湖存储上提供类似数据仓库的功能。

Apache Iceberg 不是存储单元,不是数据库,也不是计算引擎。它是一种元数据管理层,位于数据文件之上,可存储于任何一个你想要的位置。Iceberg 使数据能够同时被多个计算引擎访问,同时保证数据的可靠性和一致性。

iceberg logo

采用 Iceberg 的原因。

开放性


Iceberg完全开放,与供应商和引擎均无关。它受到了来自供应商和非供应商方面的最广泛的社区支持,在公众创新方面不断加速。

现代数据仓库功能


包括交易一致性、隐藏分区、schema演变以及时间旅行在内的Iceberg功能,有助于简化数据操作。

PB级分析


Iceberg 从头开始构建,通过维护自有的元数据层,突破了以前表格格式的瓶颈

Apache Iceberg on Cloudera.

我们将Iceberg看作“一等公民”,将其集成进我们的数据湖仓


运行高性能分析、数据工程、数据科学和人工智能,同时将适合的引擎应用于您的数据并执行适合的工作,从而消除数据移动和数据复制。


将存储从计算中抽象出来。统一访问数据湖中的结构化、半结构化和非结构化数据。使用内置的 AI 聊天机器人来探索和用好您的全部数据。

为什么要运行Apache Iceberg on Cloudera? 

Apache Iceberg开放式数据湖仓一体架构示意图

唯一一个由Iceberg提供支持的混合开放式数据湖仓一体架构


可部署于任意位置,无论是云端还是数据中心,只要是有数据存储的地方都可以

多引擎支持


获得最广泛的预集成数据服务和功能,用于摄取、处理、分析和人工智能,以支持您的整个数据生命周期

TCO降幅高达75%


具有统一安全性和治理的数据通用标准,消除了 ETL(提取、转换、加载)、数据孤岛和数据副本,TCO 降幅高达 75%

由Apache Iceberg提供支持的Cloudera 开放式数据湖仓一体架构的优势


数据民主化:让每个人都能借助自然语言获得数据驱动的洞察力


加速分析和人工智能:为您的数据部署生成式AI应用和仪表板


保持数据开放和互操作:拥有自己的数据并使用您所选择的工具

Iceberg演进路径示意图
客户
 

Apache Iceberg 可确保您拥有对数据的完全所有权 

Cloudera的开放式数据湖仓一体架构由Iceberg提供支持,这意味着我们拥有一个具有诸多高级功能的开放表格式,可以让我们更加轻松地使用和维护我们的数据。开放表格式对我们来说很重要,这意味着很多用户可以使用不同工具来实现数据的轻松访问。开放表格格式是一项基本要求,因为公司数据是公司本身的财产,不属于特定供应商。开放表格式可以保证,未来无论技术怎么发展,您都享有对您的数据的完全所有权。

—Matteo Carucci,数据与分析负责人, Eutelsat Group

文档

借助Apache Iceberg,即刻启动您的工作

从快速入门到技术细节以及更多内容,了解在 Cloudera 上使用 Apache Iceberg 所需的一切信息。

准备好了吗,让我们开始吧?

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.