Cloudera 的开放数据湖仓赋予客户灵活性,他们可以使用任何引擎或工具——无论是 Cloudera、其他厂商还是开源。我们了解现代数据生态系统的复杂性,我们的引擎中立方法可确保访问数据以构建分析或人工智能应用程序的团队和智能体之间的无缝协作。我们不断通过创新功能提升湖仓,提升速度、安全性、自动化和互作性,确保所有引擎并行高效运行,并能访问所有功能和优化。
Cloudera Lakehouse 优化器提供预测性和智能优化,自动化 Apache Iceberg 表维护,确保您的开放数据湖仓保持高性能、可扩展性和成本效益。该服务为数据团队提供一个经济高效的湖仓,用于处理所有 AI 和分析工作负载。
我们深知性能和成本效益至关重要,因此我们分享内部基准测试的有力结果。我们使用 7 个 TPC-DS 表(107 GB 数据)测试了 Cloudera Lakehouse Optimizer,并在优化前后执行了 TPC-DS 查询。即使考虑到缓存,移除了异常值,结果依然显著:
查询速度提升 13 倍:我们的数据显示,平均查询时间提升了 13 倍,优化后平均查询时间从 24 秒缩短到仅 1.8 秒!
36% 的存储成本降低:Cloudera Lakehouse 优化器还通过优化存储占用面积,实现了显著的成本节约。我们的基准测试显示,数据集大小减少了 36%——从 107 GB 减少到 68 GB。这直接转化为更低的总拥有成本(TCO)。
这些结果展示了 Cloudera Lakehouse Optimizer 如何提升下游 AI、报告和分析的查询性能,并显著降低存储成本。
无论您是专注于成本控制的平台负责人、设计可扩展解决方案的数据架构师,还是简化流程的数据工程师,Cloudera Lakehouse Optimizer 都是为您打造的。它自带策略模板和默认设置,无需大量配置即可立即优化。针对特定需求,图形用户界面(GUI)和应用程序编程接口(API)提供了一流的控制功能。
我们来探讨一下 Cloudera Lakehouse Optimizer 如何以独特方式处理表优化,以提供这些性能和存储优势:
智能策略:Cloudera Lakehouse Optimizer 评估表是否需要优化,确保只执行必要的作,并在必要时自动运行优化。它提供了丰富且可配置的操作参数,针对所有 Iceberg 优化,涵盖了大量参数以实现最大性能。
引擎和存储无关:一旦表格通过 Lakehouse Optimizer 优化,从湖仓访问数据的任何引擎都将在查询性能方面得到同样的改进,无论这些引擎是 Cloudera 拥有的、开源的还是来自其他供应商的。这些优化同样适用于存储在任何云对象存储或本地对象存储中的数据。
无与伦比的范围和控制:Cloudera Lakehouse Optimizer 允许对策略应用进行精细控制。您可以在表、命名空间甚至整个目录级别创建和应用策略,随着湖仓的发展提供灵活和可扩展的管理,并允许针对几乎所有参数定义优化,从而为您的表定义最佳策略。这种广泛范围是一个显著的差异化因素,与其他具有更有限政策应用的解决方案相比。优化器还包含专用图形界面,使所有用户能够轻松配置和监控优化。在程序控制方面,还提供全面的API/命令行界面(CLI)访问,确保所有人都能轻松使用。它还提供了无与伦比的灵活性和控制力,可以控制优化何时以及如何运行:
立即体验自动化、智能 Iceberg 表优化的强大功能,并实现显著的性能和成本效益。
This may have been caused by one of the following: