概览
以任意规模安全可靠地简化和操作数据管道。
Cloudera Data Engineering是专为企业数据工程团队量身定制的云原生服务。Data Engineering是基于Apache Spark构建的全包的数据工程工具集,可通过 Apache Airflow, 高级管道监控、可视化故障排除和综合型管理工具实现业务流程自动化,进而简化整个企业分析团队的 ETL 流程。
Data Engineering与Cloudera完全集成在一起,可通过SDX实现端到端的可见性和安全性,同时也可与数据服务(如Cloudera Data Warehouse和Cloudera Machine Learning)实现无缝集成。Data Engineering可在部署于任意地点的混合云平台上提供一致、可重复和自动化的数据工程工作流。
Cloudera Data Engineering 用例
- 可在任何地方自动化数据管道
- 获得 ETL 可见性和控制权
- 始终保持数据完整性
可在任何地方自动化数据管道
安全地向Cloudera Data Warehouse, Machine Learning或其他分析工具交付高质量数据集。
Data Engineering 简化了通往分析团队的数据管道,包括从机器学习到数据仓库等等。通过编排和自动化数据管道来加速价值实现时间,并且以安全、透明的方式在任何地方提供精选的高质量数据集。
获得 ETL 可见性和控制权
透明地全面管理数据生命周期。
当您希望大规模地运转整个企业的数据管道时,妥善地管理数据生命周期和控制好成本变得越来越复杂。
Data Engineering 提供了一整套操作控制和可见性功能,可用于跨业务用例进行容量规划、管道自动化、自动沿袭捕获以及故障排除。

始终保持数据完整性
提供完整的数据管道可见性以保护您的业务。
随着数据量和复杂性的不断增长,在确保持续的准确性和保真度的前提下扩展整个企业的分析工作负载是十分困难的。
Data Engineering 可提供本地数据管道监视和警报功能以及早发现问题,并提供可视化故障排除功能以在问题影响业务之前快速解决问题。

Cloudera Data Engineering 主要功能
编排复杂数据转换工作流(由 Apache Airflow 提供技术支撑),与数百名操作员一起满足关键任务分析要求。
Data Engineering 具备容器化、可扩展和可移植特性,提供了隔离的工作负载环境和护栏——凭借按需弹性计算实现安全的管道管理,从而经济高效地满足业务 SLA 要求。
可视化呈现 Spark 作业各个阶段中的性能指标,包括 CPU、内存和 I/O,以查明性能瓶颈并在进行故障排除时能够准确地找到症结。
通过 CLI 和 REST API 完成丰富的作业管理界面,轻松实现自动操作并与现有工作流集成,如 CI/CD 管道和第三方工具。
Data Engineering 提供了一种完全集成的 Spark on Kubernetes 服务,可自动执行并简化工件管理、安全和资源调度—利用 Apache Yunikorn 提供 FIFO 和 GANG 调度。
平台管理员可以通过一个集中式界面管理访问权限和安全性,然后快速调配新的工作负载,同时轻松地监控容量并可视化随时间使用资源的情况。SDX 还支持完整的生命周期沿袭跟踪,以了解数据的来源和去向。
世界级的训练,技术支持和服务
准备好了吗,让我们开始吧?