在 Iceberg 上使用 Apache Spark 统一结构化和非结构化数据,并通过 Airflow 进行协调——完全开放,无厂商锁定。
利用容器化的灵活性和统一治理,在云、数据中心或混合环境等任何地方构建、运行和管理数据管道。
通过财务治理工具实现成本效益和资源优化,包括工作负载级别的可观测性、自动扩展和零 ETL 数据共享。
使用案例
构建端到端数据管道,加速人工智能和分析。
-
为任何地方的数据建立可扩展的管道
实现工作负载的可移植性、开放标准以及跨云和本地的扩展。
-
通过协调,加速数据运维。
自动化工作流程、迭代管道并简化协作。
-
Zero-ETL 数据共享
支持安全、可信的内部和外部数据访问。
-
监控和优化管道成本
通过可观测性和高效计算降低总体拥有成本 (TCO)。
-
为任何地方的数据建立可扩展的管道
实现工作负载的可移植性、开放标准以及跨云和本地的扩展。
-
通过协调,加速数据运维。
自动化工作流程、迭代管道并简化协作。
-
Zero-ETL 数据共享
支持安全、可信的内部和外部数据访问。
-
监控和优化管道成本
通过可观测性和高效计算降低总体拥有成本 (TCO)。
20%
提升数据团队效率
利用 Cloudera 本地部署的可移植性、协调性和统一数据访问,提高您的效率。
可以随时随地运行 Spark、Iceberg 和 Airflow,体验云原生数据工程。
在开放数据湖的容器中,在 Iceberg 上使用 Spark 运行可扩展、受管理的管道。利用 Iceberg 的架构革命、时间旅行以及跨本地或云环境的外部数据共享。
针对复杂工作流进行拖放式协调,简化了任务管理、依赖控制和外部工具连接。
按需启动会话,进行快速测试和迭代。通过 Spark Connect,可在任何集成开发环境(如 VSCode 和 Jupyter Notebook)进行远程安全开发。
通过捕捉源系统中的行级变更,保持数据的新鲜度。自动持续更新,构建可靠的数据管道。
通过集成的血缘和元数据管理,端到端监控数据管道。由 Cloudera Shared Data Experience (SDX) 和 Cloudera Octopai Data Lineage 提供支持,实现混合环境中的自动可视化、治理和可信洞察。
使用强大的 API 实现跨任何服务的管道工作流自动化——无论您使用的是 SQL、Java、Scala 还是 Python。通过实时可视化剖析快速诊断和解决性能问题,并内置监控和警报,涵盖每个生命周期阶段。
按 Cloudera Data Engineering 集群类型划分的功能
| 核心集群 | 通用集群 | ||
基础设施 |
自动扩展集群 | ||
| 竞价型实例 | |||
| Cloudera Shared Data Experience | |||
| 通过 Iceberg 实现开放式湖仓 | |||
Spark |
工作生命周期管理 | ||
| 集中式监控 | |||
| 工作流编排(Airflow) | |||
| Spark 流 | |||
开发端点 |
交互式会话 | ||
| 外部 IDE 连接 | |||
| JDBC 连接器(即将推出) | |||
Cloudera Data Engineering 部署选项
在开放式混合数据湖上构建统一处理层。
Cloudera 云端部署
- 多云灵活性:利用容器化、API 优先的服务在公共云上部署——无供应商锁定且完全互操作。
- 模块化开发者体验:使用 Apache Airflow、托管 Spark、API 和 IDE,通过迭代协作加速开发。
- 弹性可扩展性:Spark 工作负载会自动扩展,并根据使用情况优化成本。
Cloudera 本地部署
- 如何部署,由您决定:利用容器化、API 优先的服务在公共云上部署——无供应商锁定且完全互操作。
- 云就绪体验:获得与云相同的模块化、容器化服务——专为混合云的可移植性和扩展性而构建。
- 专为企业打造:利用快速入职、外部 IDE 访问和默认的细粒度访问控制。
