历史上,高性能计算数据分析主要集中于工程/制造行业的研发领域。而依赖类似大数据系统的运营数据分析用例则各自独立运行。
如今,生成式人工智能 (GenAI) 和机器学习 (ML) 的兴起为连接这两个领域提供了绝佳的机会。这种协同效应使同时拥有这两个领域的企业能够充分利用各自的专业知识和基础设施投资,从而提高生产力,并为研发机构带来竞争优势。具体而言,使用高性能计算的机械工程师可以通过采用在大数据平台上训练的智能人工智能驱动的压缩方法(例如降阶模型),显著加快产品开发速度,并获得更深入的运营洞察。
本系列博客文章分为三部分,阐述了主权数据湖仓(一种开放式数据湖仓,可在客户而非基础设施提供商的管辖下运行)如何以及为何是扩展实验物理和人工智能工作流程,使其成为强大的企业级能力所必需的架构。我们还将探讨为何 Cloudera 是那些希望将工程的精确性与现代数据分析的敏捷性相结合的组织的首选。
理解仿真机制是理解人工智能在工程领域变革性作用的关键。传统的多物理场仿真,例如有限元分析(用于测试现实世界的结构完整性)或计算流体动力学(用于模拟空气或液体的运动),其工作原理是将物理结构(例如桥梁)分解成由数百万个微小单元组成的“网格”或系统。这些元素的数学表示通常采用相互作用的张量系统形式,即用于模拟力、压力、温度和运动如何在系统中相互作用的结构化数字集合。
全阶模型是该系统最详细、物理上最精确的模型。其物理行为由求解器(例如 OpenFOAM)模拟,该求解器持续计算复杂的方程。此过程基于物理原理计算这些张量的变化,包括单个元素的反应如何影响其最近的邻居以及整个系统。虽然这提供了极高的精度,但代价是:这些模拟对计算量要求极高,通常需要超级计算机集群运行数天才能分析一个场景,从而限制了团队迭代、测试替代方案或将产品推向市场的速度。
降阶模型是一种人工智能驱动的技术,可以显著简化复杂的模拟。它基于先进的数学技术,涵盖了从奇异值分解等经典方法到自编码器等现代人工神经网络架构,旨在逼近高度复杂的非线性系统。
降阶模型的核心在于识别并捕捉由全阶模型生成的大量模拟张量数据中最重要、最具决定性的模式。
通过提炼问题,降阶模型有效地将庞大的计算空间缩小到一个更小的“潜在空间”——系统的简化数学表示(实际上是“数字孪生”)。这意味着,传统求解器不必处理数百万个复杂方程,而降阶模型可能只需要求解 50 个潜在变量即可解释 99% 的基础物理现象。
对于机械工程师而言,他们的日常工作围绕着优化产品性能、可靠性和成本展开,需要考虑几何形状、材料、厚度和重量等无数种组合——这项功能将显著提升创新速度。他们的工作流程本质上是一系列持续不断的假设情景模拟,既依赖于基于物理的求解器生成的合成知识,也依赖于实际部署数据。将降阶模型集成到这一流程中,能够带来诸多重要的战略优势,例如:
降阶模型的战略机遇 |
解释 |
业务影响 |
快速迭代 |
在几秒钟内运行数千次设计变更和假设情景模拟。 |
将产品开发时间从数月缩短至数天。 |
边缘计算部署 |
降阶模型体积小、运行速度快,可以直接在嵌入式控制器或现场物联网 (IoT) 设备上运行。 |
无论是否连接云,都能实现实时设备端决策和自动化控制。 |
实时数字孪生 |
驱动一个物理知情神经网络(PINN),与实际机器并行运行,利用实时传感器数据预测系统行为和异常。 |
将维护方式从故障后维修转变为主动维护,从而减少停机时间并延长资产寿命。 |
降阶模型通过加速工程工作流程带来巨大价值,但成功部署需要组织系统地应对特定的技术限制和实际操作问题。
精确的降阶模型需要来自全阶模型的大量数据。例如,构建一个可靠的汽车碰撞分析降阶模型需要在不同的材料和几何配置下运行 500 到 2000 次全阶模型,这需要数周的高性能计算集群时间。稀疏的训练数据会导致降阶模型在测试条件之外出现灾难性失效。自动化的实验设计工具可以帮助优化运行哪些模拟,在保持精度的前提下,将所需的全阶模型模拟减少 30% 到 40%。
降阶模型的性能在训练边界之外会下降。例如,一个针对 800 至 1200°C 工作温度训练的涡轮叶片降阶运行模型,在 1250°C 时可能会产生 15% 到 20% 的误差。这可以通过集成建模技术和不确定性量化来解决。当模型置信度低于预定义阈值时,自动触发器可以启动使用原始全阶模型的验证运行。
在安全至关重要的领域(例如汽车、航空航天、能源等),降阶模型的应用需要与全阶模型进行严格的验证,这通常需要耗费大量精力(例如进行广泛的相关性研究)。这是因为监管机构要求在批准使用降阶模型之前,必须提供等效性证明文件。
虽然验证过程可能非常繁琐,但一旦验证通过,降阶模型就能实现数千次快速迭代,而这仅靠传统的仿真方法(全阶模型)是无法实现的。
有效的降阶模型开发需要机器学习工程和领域物理学方面的专业知识。单独工作的数据科学家可能会构建出数学上很优雅但缺乏物理可解释性的模型。单独工作的机械工程师可能难以进行超参数优化(例如架构选择和模型扩展)。因此,小型跨职能团队的表现始终优于大型的孤岛式团队。投资于能够教授工程师现代机器学习工具的培训项目至关重要。
实时控制场景需要在嵌入式硬件上进行确定性推理(延迟小于 10 毫秒)。并非所有降阶模型架构都能满足这些延迟和内存要求。深度神经网络通常会超出资源预算,而过于简化的线性降阶模型则会牺牲精度。
目前的最佳实践是分阶段部署:
首先部署基于云的降阶模型,用于数字孪生可视化和预测性维护。
然后,只有在经过广泛的硬件在环测试验证实时性能后,才部署边缘控制器。
虽然降阶模型的数学基础是可靠的,但主要障碍在于如何在整个组织内标准化其开发和部署。目前,许多研发团队依赖于分散的 Python 脚本集合、非托管文件系统或专有供应商环境。这些方法可能适用于单个项目,但在治理、合规性和行业标准开放社区实践方面却难以奏效。
为了实现规模化,降阶模型训练必须采用与处理财务记录或客户数据相同的严格数据治理原则来处理模拟数据。
应对这一转变需要解决以下问题:
MLOps 需求 |
解释 |
业务影响 |
大规模处理数据 |
可扩展的数据管道和转换工具(例如 Spark)能够提取关键特征,并标准化来自不同求解器(例如 OpenFOAM)的大量历史模拟数据。 |
确保复杂的模拟数据干净、可控,并可用于可靠的 AI 训练,从而减少返工和风险。 |
团队实验跟踪 |
配备新型机器学习实验跟踪工具(例如 MLFlow)的安全共享环境(例如 Jupyter Notebook)允许物理学家和数据科学家共同开发代码、尝试不同的 AI 模型,并持续标记超参数和损失等指标。 |
确保完整的历史记录和可复现性。当精简运维模型上线时,团队可以立即追溯到构建时的模型、数据、设置、准确度评估指标以及用于获得该结果的超参数配置的确切版本——这对于受监管行业至关重要。 |
This may have been caused by one of the following: