ClouderaNOW了解 AI 智能体云爆炸和用于人工智能的数据编织| 4 月 8 日

立即注册
| 业务

一个简化合并后数据策略的五步框架

Andreas Skouloudis Headshot
女性在建筑物内行走

非有机增长策略(如并购)起到战略增长杠杆的作用,使企业实现收入和成本协同,或快速获得新兴能力,从而带来长期竞争优势。例如,如今我们会看到大型组织收购规模较小的创新型人工智能初创企业,以加速人工智能转型,获得竞争优势。

技术整合在并购中的价值获取中起着关键作用。德勤的一项研究认为,IT 是整合优势的关键驱动力,占所有协同效应的 50% 以上。然而,由于数据孤岛的泛滥以及技术架构和环境的变化,组织在实现技术集成优势时面临诸多合并后数据挑战。

本文介绍了一个五步框架,以应对这些挑战并加快在并购环境中获取价值。该框架将确保您与 Cloudera 合并后的数据战略能够提供简化技术集成流程所需的能力。

展示 Cloudera 并购后数据策略的图表

图 1:使用 Cloudera 的并购后数据集成框架

1. 利用 Cloudera Octopai 数据系谱加速并购后集成

在并购后集成初期,数据发现阶段常常成为瓶颈,因为零散且未公开的来源会延误关键的分析和合规工作。Cloudera Octopai Data Lineage 通过提供自动化的 AI 驱动元数据管理解决方案,加速在复杂的混合和多云环境中的数据发现、端到端谱系和编目,从而应对这一挑战。

Cloudera Octopai Data Lineage 可有效映射数据流并填补元数据空白,提供多维谱系,追踪起源和转换,以实现完全可见性。Cloudera Octopai Data Lineage 拥有 60 多个原生集成和通用连接器,优化了已收购数据资产的上传流程,从而提升数据透明度、质量和信任度。

例如,在银行并购场景中,该功能有助于快速识别和标记风险相关数据集,确保符合 BCBS 239 等监管标准,同时减少大量人工审计或干预的需求。

2. 将不同的数据源与 Cloudera 动态数据集成

整合多样化数据源并消除复杂的定制 ETL 管道是并购后面临的关键挑战。Cloudera 通过 Cloudera 数据流 (由 Apache NiFi 支持)和 Cloudera Streaming (由 Apache Kafka 和 Apache Flink 支持)提供强大的批量和实时数据摄取、处理和数据分发能力。

Cloudera 数据流拥有超过 450 个连接器,提供可视化拖拽界面,能够从本地、云或边缘的多种异构数据源中导入数据。此外,Cloudera Streaming 还提供了消息总线架构,将源系统与消耗系统分离,从而消除了增加架构复杂性和更高成本的点对点集成。

在合并后的整合过程中,这些能力可以显著加速和简化组织间的数据流动。例如,Cloudera 数据流可用于快速将被收购公司遗留源系统的本地数据集成到母公司的云原生数据仓库中,加快决策进程。

3. 使用 Apache Iceberg 在 Cloudera 开放式数据湖仓上构建安全的数据共享层。

合并实体之间的数据共享是综合决策和获得洞察力的基本要求。由于探索性分析和商业只能技术的多样性,以及不同系统采用的数据安全模型,这一过程可能非常复杂。

结合开放数据湖屋方法,Apache IcebergCloudera Iceberg REST CatalogCloudera Shared Data Experience (SDX) 使组织能够开发统一的数据共享层。该层兼容多种分析引擎(例如 Snowflake、Databricks、AWS EMR、AWS Athena 和 Salesforce Data Cloud,只要这些引擎支持 Iceberg REST Catalog),并提供细粒度的安全与治理模型,以管理包括新整合的数据科学团队在内的多样化用户的访问。

例如,两家从事药品制造的医疗机构可以利用 Cloudera 构建符合 GxP 标准的数据湖仓,整合合并实体的数据资产,同时确保符合监管要求。

4. 将跨环境的举措标准化于单一的多云环境中

两个合并实体中用于分析活动的不同环境会导致整个数据生命周期中的重复操作,包括用于数据摄取和标准化等常见任务的多个数据工程管道。

Cloudera 使组织能够在各种私有和公有云环境的通用运行时对数据和 AI 操作进行标准化。这一功能源于跨环境使用的底层容器化基础设施模型、一致的用户身份验证和授权机制(Cloudera SDX),以及 Cloudera Manager,后者作为管理跨不同部署环境和区域的集群的单一管理面板。

在合并后的背景下,这一标准化具有变革性:两家公司可以将数据生命周期作整合到单一运行时,消除多余工具,促进数据、洞察和 AI 模型的共享。这带来了数据运营和 AI/ML 模型开发的技术和劳动力成本的降低,提高了从业者生产力,整合了多种工具,减少了数据孤岛。

5. 使用 Cloudera AI 在任何地方扩展 AI 计划

收购或合并后,当前的挑战是整合新收购的创新初创企业中分散的工具、模型和数据科学家,同时应对不断变化的产能需求。Cloudera AI Workbench 和 AI Inference 赋能组织通过以下方式在本地或云端扩展 AI 项目:

  • 提供基于容器的端到端特征工程、模型训练、实验跟踪和模型部署解决方案

  • 促进人工智能模型共享,使数据科学家能够在不同的团队之间进行协作

  • 利用 Clouder 合作伙伴提供的硬件和软件加速服务,通过提升数据工程性能 20 倍和 AI 推理性能提升 6 倍,将整个数据科学生命周期加速

借助 Cloudera,整合后的公司可以通过将持久且计算密集型工作负载(如 AI/ML 模型)迁移到本地环境,实现显著的成本降低。更重要的是,它能加快新型综合 AI 应用的上市时间。这使组织能够迅速实现其最初从并购中寻求的“竞争优势”

迈出下一步,确保下一次并购后的成功整合

Cloudera 可以加速两个整合实体之间的数据资产和分析能力的后合并整合。我们的平台提供跨数据生命周期的可扩展性、与基础架构无关的部署模型以及数据湖仓在 Cloudera 服务和 Apache Iceberg 上的互操作性。这一组合为标准化 AI/ML 项目和数据操作提供了架构蓝图,并提供一个可供 Cloudera 及非 Cloudera 服务使用的数据共享模型。

如需安排产品演示或参观,请联系我们的团队

准备好了吗?

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.