AI 正迫使企业面对一个他们多年来一直搁置的项目:分散的数据资产。
过去,数据碎片化只是一种不便。当然,跨区域或部门提取报告需要额外的步骤和几天时间。IT 团队可能不得不介入以解决差异。但这些都不足以构成致命的缺陷。
直到现在。
在人工智能环境中,分散的数据资产意味着:
这意味着重复、延迟和盲点,而企业恰恰在试图大规模部署 AI 的关键时刻面临这些挑战。
换句话说,数据碎片化突然成为了致命的缺陷。
在之前的文章中,我们探讨了为什么统一且受控的数据访问是可信人工智能的基础,以及为什么仅仅依靠数据整合并不能解决问题。集中化数据(即将所有数据迁移到一个物理位置)在理论上听起来很完美,但实际上,它会带来企业无法承受的运营权衡。点击此处了解原因。
另一种方法是联邦——使各组织能够像数据已统一一样运行。但许多买家现在发现一个细微差别:
并非所有联邦策略都具有相同的效果。
大多数供应商都使用“联邦”一词来描述其数据和人工智能平台的一项优势(例如,允许组织使用其所有数据来运行分析和人工智能),但他们对该术语的理解并不总是相同的。在评估平台时,至关重要的是要了解每个供应商提供的具体内容以及这些内容与自身需求的契合度,以免过度承诺。
一般来说,当今市场上有两种主要方法:先整合再联邦和就地联邦(通常称为数据虚拟化)。
第一种联邦模型被称为“先整合后联邦”的方法——在将数据整合到供应商的云环境或其治理模型中之后,联邦才成为可能。如果您需要跨系统访问,通常意味着需要定期将数据复制或导入到他们的平台。
简而言之,之所以称之为联邦,是因为您可以在一个地方分析所有数据。但您必须先将所有数据迁移到他们的平台上。
对于企业领导者而言,这种方法会带来切实的影响,包括:
换句话说,您的数据存储在越多的地方,成本就越高,安全性也越差。对于云原生公司而言,这种方法或许可行。但对于混合型、受监管的企业来说,这种方法会随着时间的推移而加剧摩擦。
Cloudera 倡导的联邦模型采取了截然不同的立场:无论数据存储在何处,都将计算和 AI 集成到数据中,而不是强制数据迁移。
原地联邦以逻辑方式而非物理方式将数据整合在一起,因此团队可以直接在数据所在的位置(包括公共云、私有云和本地环境)访问和分析数据,而无需先将其复制到其他平台。
这听起来似乎只是细微的差别,但实际上却能带来翻天覆地的变化:
因此,出于监管、运营或性能方面的考虑,您的数据将保留在最合适的位置,而您的团队仍然可以获得完整的实时视图。
当联邦在混合环境中无需复制即可运行时(即原地联邦),它创造了整合优先模型难以企及的条件。这种区别改变了非纯云环境的整个 AI 策略的风险状况。
在整合优先模型(例如 Databricks 和 Snowflake 等供应商提供的模型)中,数据可能看起来是统一的,但它仍然存在于多个环境中。数据在进行分析之前,会被复制、导入或复制到供应商控制的平台中。每增加一份副本,合规范围就会扩大。
更多的环境意味着需要管理的权限更多、需要同步的策略更多,以及需要协调的审计范围也更大。随着复制规模的增长,治理的复杂性也会增加。
像 Cloudera 这样的原地联邦模型,不会改变数据的位置。因此,治理策略只需定义一次,即可在所有地方一致地执行。无需在不同系统间重新创建权限,只需一个统一的控制平面即可管理跨混合环境的访问。在 Cloudera,我们称之为“随数据移动的治理”。
可以把它想象成一个全球企业徽章系统。您肯定不希望员工每次去不同的办公室都要发放新的安全徽章。访问权限集中定义,同一个徽章可以在总部、区域办公室和数据中心使用,并在所有地方强制执行相同的安全规则。
您只需定义一次规则,所有门禁系统都能识别这些规则——即使在不同的地点。这就是零冗余安全,对于风险控制而言是一项巨大的优势,因为随着环境的增长,复杂性不会成倍增加。
在各行各业,人工智能承担着越来越重要的责任,随之而来的是人们对问责制和可解释性的需求日益增长。
例如,当人工智能影响信贷审批、欺诈标记、定价决策或供应链调整时,每个输出都必须有理有据。监管机构、审计人员和高管越来越希望看到的不仅是结果,还有产生结果的完整路径。
在混合型企业中,这条路径很少存在于单一环境中。数据可能源自本地或边缘,在公有云中进行丰富,与 SaaS 数据合并,并被运行在其他地方的模型使用。在这种现实情况下,可追溯性是不可或缺的。
以整合为先的联邦方法试图通过集中数据来简化血缘关系。但实际上,复制会创建平行的历史记录:源系统中的原始数据集和分析环境中的转换副本。随着时间的推移,解释某个决策可能需要协调不同系统中同一数据的多个版本。数据血缘会变成需要重建的东西。
如果将原地联邦集成到数据血缘功能中(例如 Cloudera 的数据血缘工具),这就不再是个问题。因为数据是在其所在位置访问的(而不是复制到单独的环境中),所以血缘关系始终与原始数据源保持关联。
这种区别在混合型和边缘依赖型工作流程中尤为重要。采用原地联邦方法,您可以放心,即使几年后监管机构或新的首席风险官 (CRO) 出现并询问某个特定决策是如何做出的,答案也不会隐藏在需要解读的黑匣子中。它是有据可查、可追溯且可辩护的。
在以整合为先的模型中,AI 在数据集中化的环境中运行。只要数据移动与实际运营保持同步,这种方法就有效。在混合型企业中,这种情况很少发生。
当人工智能负责动态定价或供应链调整等实际结果时,它必须在实时分布式系统中运行,而不是下游分析副本。每一次复制都会引入依赖链,造成延迟/数据导入延迟,并可能导致实际运营系统与使用这些系统的人工智能模型之间出现偏差。
另一方面,原地联邦能够使人工智能与实际运营保持一致,确保上下文始终保持最新,并支持那些以整合为先的联合策略无法在云端之外实现的运营人工智能用例。
为了了解这一切在实践中的重要性,让我们来看一个例子。假设一家全球物流公司部署人工智能来实时优化配送路线。单个路线决策可能取决于:
如果该人工智能模型运行在几天甚至几小时前复制到单个云端的快照上,那么它所做的决策就缺乏完整的上下文信息。它可能会重新规划路线,而没有考虑更新后的库存水平;或者在优化速度时,没有考虑区域合规性限制。它可能依赖于已偏离路线的车辆的过时遥测数据。
当人工智能系统能够以零冗余安全性和完整的血缘可见性安全地访问其已存在的分布式数据时,企业就能释放出完全运行的人工智能,使其能够实时行动、在策略边界内运行,并在不增加风险的情况下跨环境扩展。
正如我们所探讨的,并非所有联邦策略都旨在实现相同的结果。
有些策略优先考虑整合,而另一些策略则优先考虑混合灵活性和受控访问。在评估 Cloudera、Databricks 和 Snowflake(或任何数据联邦解决方案或其组合)时,以下问题有助于揭示真正的差异:
这些问题的答案将帮助您确定联邦功能是会成为以分析用例为中心的便捷功能,还是会成为构建可信赖、成本可控的企业级 AI 的长期基础。
设计联邦环境意味着要深入了解其底层架构——协调治理模型、监管限制、性能要求和现有集成,同时以支持长期灵活性的方式连接系统。
Cloudera 的专业服务与培训 (PS&T) 团队已无数次指导各行各业的组织完成这一过程。无论是制定新的联邦战略还是优化现有环境,经验丰富的顾问都能帮助您确保联邦环境不仅设置正确,而且真正具备人工智能就绪能力,并能够交付可衡量的成果。
先整合后部署联邦,这一选择决定了人工智能是停留在试点阶段还是安全地扩展到运营层面。
在金融服务领域,这一点尤为重要,因为欺诈检测、风险管理和监管报告都依赖于最新的跨系统数据。在下一篇文章中,我们将探讨联邦如何重塑银行业的实时分析和人工智能治理。
This may have been caused by one of the following: