Cloudera 被 The Forrester Wave™ 评为 2025 年第四季度数据架构平台的领导者

阅读报告
概述

企业数据工程之开放标准

Data Engineering 使企业团队能够在开放式湖仓的基础上安全地构建、自动化和扩展数据管道。为任何地方的数据,提供多功能分析和人工智能的动力。

Cloudera Data Engineering 示意图

在 Iceberg 上使用 Apache Spark 统一结构化和非结构化数据,并通过 Airflow 进行协调——完全开放,无厂商锁定。


利用容器化的灵活性和统一治理,在云、数据中心或混合环境等任何地方构建、运行和管理数据管道。


通过财务治理工具实现成本效益和资源优化,包括工作负载级别的可观测性、自动扩展和零 ETL 数据共享。

使用案例

构建端到端数据管道,加速人工智能和分析。

  • 为任何地方的数据建立可扩展的管道

    实现工作负载的可移植性、开放标准以及跨云和本地的扩展。

  • 通过协调,加速数据运维。

    自动化工作流程、迭代管道并简化协作。

  • Zero-ETL 数据共享

    支持安全、可信的内部和外部数据访问。

  • 监控和优化管道成本

    通过可观测性和高效计算降低总体拥有成本 (TCO)。

  • 为任何地方的数据建立可扩展的管道

    实现工作负载的可移植性、开放标准以及跨云和本地的扩展。

  • 通过协调,加速数据运维。

    自动化工作流程、迭代管道并简化协作。

  • Zero-ETL 数据共享

    支持安全、可信的内部和外部数据访问。

  • 监控和优化管道成本

    通过可观测性和高效计算降低总体拥有成本 (TCO)。

20%

提升数据团队效率


利用 Cloudera 本地部署的可移植性、协调性和统一数据访问,提高您的效率。

可以随时随地运行 Spark、Iceberg 和 Airflow,体验云原生数据工程。

数据工程产品屏幕截图

通过直观且企业级安全的工具提升从业人员的生产力

使用 Sessions 和 Apache Airflow 构建、测试和协调管道。

Iceberg REST 目录产品图

将最新数据提供给下游管道和外部平台。

通过 Iceberg REST Catalog 连接外部引擎,并进行元数据管理和血缘管理。

Cloudera Observability 产品截图

以更智能的方式在工作负载级别进行财务治理

通过内置洞察和节能的 AWS Graviton 处理器优化成本。

关键功能

在开放数据湖的容器中,在 Iceberg 上使用 Spark 运行可扩展、受管理的管道。利用 Iceberg 的架构革命、时间旅行以及跨本地或云环境的外部数据共享。

针对复杂工作流进行拖放式协调,简化了任务管理、依赖控制和外部工具连接。

按需启动会话,进行快速测试和迭代。通过 Spark Connect,可在任何集成开发环境(如 VSCode 和 Jupyter Notebook)进行远程安全开发。

通过捕捉源系统中的行级变更,保持数据的新鲜度。自动持续更新,构建可靠的数据管道。

通过集成的血缘和元数据管理,端到端监控数据管道。由 Cloudera Shared Data Experience (SDX)Cloudera Octopai Data Lineage 提供支持,实现混合环境中的自动可视化、治理和可信洞察。

使用强大的 API 实现跨任何服务的管道工作流自动化——无论您使用的是 SQL、Java、Scala 还是 Python。通过实时可视化剖析快速诊断和解决性能问题,并内置监控和警报,涵盖每个生命周期阶段。

按 Cloudera Data Engineering 集群类型划分的功能

  核心集群 通用集群

基础设施

自动扩展集群    
竞价型实例    
Cloudera Shared Data Experience    
通过 Iceberg 实现开放式湖仓    

Spark

工作生命周期管理    
集中式监控    
工作流编排(Airflow)    
Spark 流    

开发端点

交互式会话    
外部 IDE 连接    
JDBC 连接器(即将推出)    

Cloudera Data Engineering 部署选项

在开放式混合数据湖上构建统一处理层。

Cloudera 云端部署

  • 多云灵活性:利用容器化、API 优先的服务在公共云上部署——无供应商锁定且完全互操作。
  • 模块化开发者体验:使用 Apache Airflow、托管 Spark、API 和 IDE,通过迭代协作加速开发。
  • 弹性可扩展性:Spark 工作负载会自动扩展,并根据使用情况优化成本。

Cloudera 本地部署

  • 如何部署,由您决定:利用容器化、API 优先的服务在公共云上部署——无供应商锁定且完全互操作。
  • 云就绪体验:获得与云相同的模块化、容器化服务——专为混合云的可移植性和扩展性而构建。
  • 专为企业打造:利用快速入职、外部 IDE 访问和默认的细粒度访问控制。
客户

将混合数据转化为业务影响,深受团队信赖。

连接器、集成和合作伙伴。

在开放、互操作的数据生态系统上构建管道。与现代数据栈中的领先引擎、云提供商和工具进行集成。

Apache Spark 徽标

数据处理

Apache Iceberg logo

数据湖和数据仓库

Apache Airflow 徽标

数据协调

Apache Nifi 徽标

流媒体数据摄取

Hbase 徽标

NoSQL 引擎

Apache Impala 徽标

数据湖和数据仓库

IBM logo

云服务提供商

云服务提供商

Google Cloud 徽标

云服务提供商

云服务提供商

Kubernetes 徽标

容器编排

数据仓库

欢迎参与

进入下一步

深入了解细节并探索 Cloudera 数据工程的强大功能。

数据工程产品导览

产品导览图标

通过产品导览,深入了解 Cloudera Engineering 的内部情况。

立即使用

数据工程文档

文档库

深入了解如何快速启动并运行 Cloudera Data Engineering。

云端数据工程
本地数据工程

探索更多产品

Cloudera Data Warehouse


在不影响速度、成本或安全的前提下,为成千上万的并发用户分析海量数据。

开放数据湖仓


利用灵活的平台,随时随地处理任意类型数据,实现可操作的分析和可信赖的人工智能,最终做出明智的决策。

Cloudera AI


借助面向企业 AI 的安全、可扩展和开放平台,加速数据驱动的决策进程,缩短从研究到投产的时间。

Cloudera Data Flow


以简单、安全、可扩展且经济高效的方式从任何来源收集数据并将其移动到任何目的地。

准备好了吗?

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.