Cloudera Data Engineering

在 Iceberg 上使用 Apache Spark 构建、协调和管理企业级数据管道。支持从云到数据中心的可扩展 AI 和多功能分析。

概述

企业数据工程之开放标准

Data Engineering 使企业团队能够在开放式湖仓的基础上安全地构建、自动化和扩展数据管道。为任何地方的数据，提供多功能分析和人工智能的动力。

在 Iceberg 上使用 Apache Spark 统一结构化和非结构化数据，并通过 Airflow 进行协调——完全开放，无厂商锁定。

利用容器化的灵活性和统一治理，在云、数据中心或混合环境等任何地方构建、运行和管理数据管道。

通过财务治理工具实现成本效益和资源优化，包括工作负载级别的可观测性、自动扩展和零 ETL 数据共享。

使用案例

构建端到端数据管道，加速人工智能和分析。

为任何地方的数据建立可扩展的管道

实现工作负载的可移植性、开放标准以及跨云和本地的扩展。

通过协调，加速数据运维。

自动化工作流程、迭代管道并简化协作。

Zero-ETL 数据共享

支持安全、可信的内部和外部数据访问。

监控和优化管道成本

通过可观测性和高效计算降低总体拥有成本 (TCO)。

为任何地方的数据建立可扩展的管道

实现工作负载的可移植性、开放标准以及跨云和本地的扩展。

通过协调，加速数据运维。

自动化工作流程、迭代管道并简化协作。

Zero-ETL 数据共享

支持安全、可信的内部和外部数据访问。

监控和优化管道成本

通过可观测性和高效计算降低总体拥有成本 (TCO)。

20%

提升数据团队效率

利用 Cloudera 本地部署的可移植性、协调性和统一数据访问，提高您的效率。

可以随时随地运行 Spark、Iceberg 和 Airflow，体验云原生数据工程。

观看网络研讨会

通过直观且企业级安全的工具提升从业人员的生产力

使用 Sessions 和 Apache Airflow 构建、测试和协调管道。

阅读客户案例

将最新数据提供给下游管道和外部平台。

通过 Iceberg REST Catalog 连接外部引擎，实现元数据治理和血缘管理。

阅读博客

以更智能的方式在工作负载级别进行财务治理

通过内置洞察和节能的 AWS Graviton 处理器优化成本。

阅读客户案例

迁移到 Apache® Iceberg For Dummies

阅读这份分步指南，了解如何将工作负载迁移到 Apache Iceberg。

关键功能

在开放数据湖的容器中，在 Iceberg 上使用 Spark 运行可扩展、受管理的管道。利用 Iceberg 的架构革命、时间旅行以及跨本地或云环境的外部数据共享。

针对复杂工作流进行拖放式协调，简化了任务管理、依赖控制和外部工具连接。

按需启动会话，进行快速测试和迭代。通过 Spark Connect，可在任何集成开发环境（如 VSCode 和 Jupyter Notebook）进行远程安全开发。

通过捕捉源系统中的行级变更，保持数据的新鲜度。自动持续更新，构建可靠的数据管道。

通过集成的血缘和元数据管理，端到端监控数据管道。由 Cloudera Shared Data Experience (SDX) 和 Cloudera Data Lineage 提供支持，实现混合环境中的自动可视化、治理和可信洞察。

使用强大的 API 实现跨任何服务的管道工作流自动化——无论您使用的是 SQL、Java、Scala 还是 Python。通过实时可视化剖析快速诊断和解决性能问题，并内置监控和警报，涵盖每个生命周期阶段。

按 Cloudera Data Engineering 集群类型划分的功能

		核心集群	通用集群
基础设施	自动扩展集群
	竞价型实例
	Cloudera Shared Data Experience
	通过 Iceberg 实现开放式湖仓
Spark	工作生命周期管理
	集中式监控
	工作流编排（Airflow）
	Spark 流
开发端点	交互式会话
	外部 IDE 连接
	JDBC 连接器（即将推出）