弥合高性能计算 (HPC) 与主权人工智能之间的鸿沟：三部曲之二

1 分钟阅读 • 发布者 Gabriele Folchi 和 Lama Itani

Cloudera 平台本地部署 Data Engineering AI Data Lakehouse

如果您还没有阅读关于高性能计算基础知识的第一部分，现在就去看看吧！

主权数据湖仓的关键原则

开放式数据湖仓：面向工程师的简易 PaaS

传统的工程仿真软件在帮助机械工程师准备、执行和分析仿真作业方面表现出色，但它缺乏管理现代机器学习 (ML) 工作流程和数据管道的原生设计。开放式数据湖仓可以弥合这一差距，在 IT 部门可能已经熟悉的平台上，为研发工程师提供强大而现代的功能。

开放式数据湖仓的主要用例和优势包括：

经济高效且受控的数据归档：提供几乎无限的低成本存储空间，用于归档多年的仿真快照（求解器会话生成的数据集）。所有工程和 IT 组织或团队都采用一致的管理和治理方式来管理此存储。至关重要的是，每个数据集都保留了必要的元数据和血缘信息，从而将其从不透明的文件转变为可信赖的资产，可以轻松地在原始创建者之外重复使用。

简化了对计算资源的访问：工程师可以轻松快速地部署共享笔记本和 Apache Spark 或 Python Ray 集群。这些通常共享主 HPC 集群使用的相同专用 GPU 资源。

通过开放标准进行保护：开放式数据湖仓优先使用 Apache Iceberg、Parquet 和 Python 等开放标准，而不是专有的工程格式。这对于保护公司的知识产权 (IP) 至关重要，确保无论公司 IT 基础设施或提供商策略如何演变，仿真数据现在和将来都可以被任何工具访问和使用。

类似云的 PaaS 体验： 数据湖仓构建为用户友好、自助式的平台即服务 (PaaS) 堆栈，简化了复杂系统的使用。数据工程和 MLOps 工具能够有效弥合不同技术背景用户之间的知识鸿沟，并促进富有成效的能力交流。

公共云在保护研发知识产权方面的风险

虽然数据湖仓有许多优势，但对于高度监管的行业（例如航空航天、国防、能源和汽车行业）而言，它本身并非完整的解决方案，因为在这些行业中，数据主权是不可妥协的要求。简而言之：并非所有数据湖仓都能按照数据主权的要求进行部署和运营，而依赖公共云会带来重大风险，影响对专有知识产权的严格控制。

例如，计算流体动力学 (CFD) 作业（例如新型发动机设计）的单个快照实际上代表了其性能和工业设计的完整蓝图；该数据集是公司的宝贵资产。因此，至关重要的是确定数据湖库的哪些关键非功能性能力能够提供存储此类战略资产所需的绝对法律保障，以确保运营主权。这直接引出了驻留与主权之争的核心问题。

数据驻留与数据主权

将主权传统定义为在企业本国运营，这种观念已经过时，是前云时代的遗留产物。以前，数据中心基础设施通常由本地人员管理，这使其必然受制于公司的本地管辖权和法律义务。然而，随着商业云服务的兴起，以及服务提供商必须保证全天候 (24/7) 的极高服务水平目标，远程、全天候 (OECD) 的全球云运营模式已全面实现。这一发展使得管理团队的驻留（至少在商业标准区域内）无法得到保证，从而切断了“数据驻留”与真正“主权”之间的联系。

因此，处理关键工程数据最可靠的架构是主权数据湖仓：一个原生混合且与云平台无关的开放式数据湖仓。

这种方法既能提供类似云平台即服务 (PaaS) 的便捷性和速度，又能从设计之初就确保合规性，使企业能够满足国家或其他司法管辖区的政策要求，这些政策要求企业完全在主权、私有和受控的环境（和人员）内运营。

术语	解释	业务影响
数据驻留	数据实际存储在特定国家/地区的地缘政治边界内的硬件上。	处理基本的本地合规性要求，这些要求不一定与安全性相关，主要涉及数据本身与使用该特定数据集的 IT 解决方案之间的延迟。
运营主权	确保管理云基础设施（云运维）的人员以及管理提供商的法律框架也位于本地，并受适当的主权治理。	避免外国政府访问请求的风险，这些请求可能合法迫使服务提供商在未获公司授权的情况下交出敏感的知识产权。

人工智能经济学：实现人工智能模型的成本可预测性

除了安全和法律合规，主权数据湖屋架构还提供了另一个关键优势：实现AI工作流程的可预测成本管理。

在公共云中运行人工智能服务的财务模型本质上是可变的，并且基于消费，成本直接与使用指标（例如 GPU 小时数、处理的令牌数、运营量和扫描的数据量）挂钩。随着越来越多的团队、项目和应用程序利用云基础设施，成本呈指数级增长。对于训练复杂的生成式人工智能 (GenAI) 模型或大型自编码器等高需求任务，这种模型尤其具有挑战性，因为这些任务需要专用、持续且大量的 GPU 使用，而这些资源通常难以有效共享。

迁移到部署在私有或固定成本托管数据中心的主权数据湖仓，能够帮助企业实现可预测的支出，具体体现在以下几个方面：

建立固定资产投资： 组织投资于固定、可共享的基础设施。这种设置允许多个团队和项目使用相同的资源，有效地将启动新研发实验的边际成本降低到接近零。
消除“账单冲击”：这种架构彻底消除了与意外巨额支出相关的任何财务风险，例如高容量推理、持续迭代的研发训练循环或公有云区域常见的高昂数据传输费用等。

如需了解更多信息，请继续阅读第三部分！

Gabriele Folchi

Senior Partner Solutions Engineer

该作者的更多作品 ›

Lama Itani

Partner Solutions Engineer

该作者的更多作品 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.