在当今的州、地方和教育(SLED)环境中——尤其是在高等教育领域——预算面临持续审查,而对数据卓越的需求始终不变。这意味着要用更少的资源做更多的事情。一个对数据工作流程产生重大影响的变化,可以通过自动化和记录数据血缘来提升数据和人工智能的质量,同时降低成本。
高等教育机构正在与数据复杂性作斗争:关键数据分散在从未设计过相互通信的系统和环境中——本地数据库、云环境和边缘设备。在不同来源和团队之间管理学生 ID、助学金 ID 或年度至今的捐赠绩效等字段是必要的,但却很困难,需要手动操作,而且容易出错。
如果没有可信且高质量的数据,高影响力的分析和人工智能应用场景仍是空中楼阁。然而,如果高等教育机构能够统一地掌握跨系统的数据谱系,就能成功利用这些数据,在课程开发、学生招募、学生留存、高效校园运营、迁移云端等领域,实现AI驱动的洞察和行动。
Cloudera Data Lineage 提供了一种自动化且一致的方法,将数据从创建(源)到最终使用(BI 或 AI)的流程进行映射。它能非常快速地采集和解读元数据,帮助组织构建一个全面的知识图谱,准确展示数据是如何被创建、转化和使用的,且在整个地图上保持一致且无任何漏洞。
在我们最近由 Cloudera 和合作伙伴 Carahsoft 主办的网络研讨会“在 SLED 组织中建立信任和合规性”上,小组成员 Art Jordan(Cloudera Data Lineage 智能产品市场销售总监)指出,“数据血缘是一个价值十亿美元的问题”。如果您依赖手动流程,且数据映射存在盲点,低效和延迟不可避免,这就带来了关于可解释人工智能、个人身份信息(PII)隐私和合规性的关键挑战。
Cloudera Data Lineage 通过提供整个映射中一致的、包含依赖关系和转换的详细血缘视图来应对这些挑战:
跨系统血缘:从入口点到报告、分析和任何数据使用者,提供系统级血缘。
系统内部血缘:详细描述提取、转换和加载(ETL)过程、报表或数据库对象中的资产级血缘。这包括查看某个字段是如何在管道或资源库中生成或计算的。
端到端数据血缘:系统之间的端到端资产级数据血缘。这涵盖了复杂的关系,即一个字段可能为多个系统提供数据,或来自多个来源(一对多和多对一)。
掌握血缘关系,高等教育机构就能快速执行上下游分析和制图。它提供端到端的可视化和治理,使组织能够了解数据的去向、来源及其生成方式。这种透明度和保证完整性的能力对于确保您拥有可信赖的高质量数据用于人工智能模型,并将其交付给高级领导层和外部合作伙伴至关重要。
亚利桑那大学是一所主要的研究型大学,在其大学分析和机构研究部门实施了 Cloudera Data Lineage。他们的环境包括每晚运行 10,000 个提取、转换和加载 (ETL) 作业,并在数据仓库中存放近 40,000 个独立列。由于数据量庞大,手工记录具有挑战性。
大学通过以下方式实现了显著的效率提升和成本降低:
执行ETL影响分析:分析PeopleSoft重大更新的影响(包括更改数据类型和长度或删除列)此前需要数据工程团队一周或更长时间。Cloudera Data Lineage 将此时间缩短至几天。
整合工件:每个 ETL 任务都消耗计算、存储和日志记录资源。使用 Cloudera 的端到端元数据视图,亚利桑那大学整合了工件,将 ETL 任务从 10,000 个减少到 8,000 个。20% 的减少降低了基础设施成本,降低了管道复杂性,减少了运营开销,同时改善了整个环境的数据一致性和治理。
利用快速发现:使用 Cloudera Data Lineage 发现模块,团队编制了一个包含特定注释 SQL 的所有 ETL 作业的列表。这项任务——对于一次重大系统升级来说是必需的——如果手动执行将需要大量时间,但通过自动化立即完成了。
关键是,Cloudera Data Lineage 通过为利益相关者提供清晰的管道、存储库和BI报告的数据流可视化,增强了审计准备度和数据准确性。合规、机构研究和财务团队无需仅依赖数据工程团队手动追踪数据来源和转换,而是能够独立验证数据来源及计算方式。这降低了报告错误的风险,加快了对监管和认证咨询的响应,同时减轻了精益IT预算和资源的压力。
您是否相信贵组织在面临预算审查或快速运营变革时,仍能证明其合规性和数据准确性?下周您希望自动记录和映射的最复杂的数据管道转换是什么?
让我们来讨论 Cloudera Data Lineage 如何帮助您实现数据卓越。
This may have been caused by one of the following: