2026 年数据就绪指数：了解成功实现 AI 的基础

查看结果

2025年10月1日 | 业务

利用结构化合成数据为企业人工智能赋能：保护隐私和源统计属性

1 分钟阅读 • 发布者 Andreas Tsiartas , Yi-Hsun Tsai , 和 Robert Hryniewicz

AI Enterprise Ai

在数据驱动的人工智能时代，企业需要高质量的数据集来分析或训练人工智能模型，然而数据隐私法规和伦理问题限制了真实数据的使用或共享。组织如何在不泄露敏感信息的情况下创新？

在 Cloudera，我们开创了一种弥补这一差距的解决方案。Cloudera 的合成数据工作室（Synthetic Data Studio）——Cloudera AI Studio工具集的一部分——是一种可以模仿企业实际数据模式创建完全合成数据集的工具，因此企业可以在没有机密信息风险的情况下进行创新。

关键要点

Cloudera 的合成数据生成方法为希望使用或共享敏感结构化数据的企业提供了蓝图。该方法说明：

隐私是一种特性：合成数据成为战略资产，在受限领域实现创新

统计保真度至关重要：集群和种子指令确保合成数据保留了使模型有效的细微关系

企业 AI 的可扩展性：自动化工作流程降低了合成数据生成的成本和时间

商业挑战：利用 AI 模型的同时确保合规

设想，一家金融服务公司试图预测贷款违约情况。真实世界中的数据在这个领域是敏感信息的宝库：收入水平、就业历史和信用评分。与第三方或人工智能模型共享此类数据存在诸多监管和伦理障碍。

传统的合成数据方法常常不足，未能捕捉变量之间细微的逻辑关系——例如现有债务如何影响还款行为——或跨行和列数据点之间的逻辑一致性。公司需要一种能够扩展、保持原始数据统计完整性并确保符合隐私标准的合成数据解决方案。

Cloudera 的解决方案：结构化合成数据生成

Cloudera 的解决方案遵循四步工作流程，该工作流程整合了集群技术、Cloudera Synthetic Data Studio 和严格的验证。

第 1 步：数据分析

首先要对数据进行分区和聚类，以创建统计特征。通过将借款人按风险水平分类为组别——例如高风险与低风险申请人——并进一步对贷款金额和利率等数值变量进行聚类，我们将数据集提炼为“种子指令”。

种子指令编码了各组的统计属性，如均值、标准差和相关性，同时嵌入借款人信息，如贷款等级或贷款状态。此步骤确保合成数据继承原始数据的结构，同时不泄露敏感详细信息。

步骤 2：使用 Cloudera Synthetic Data Studio 生成数据

有了这些种子指令，下一阶段将利用 LLM 支持的生成。使用像 Llama 3.3-70B-Instruct 这样的高级模型，我们根据种子指令中看到的统计蓝图合成新记录。Cloudera Synthetic Data Studio 起到创造力的作用，生成保留了在种子指令中定义的关系和模式的数据。

这就是魔法发生的地方：模型不仅仅产生随机数字，而是构建反映现实世界场景复杂性的数据，例如借款人的收入如何合理地影响其还款历史。

步骤 3：过滤数据

然而，并非所有生成的数据都符合所需的质量要求。为了确保保真性，我们采用了一种以大语言模型为评判的创新工作流程。

这一步根据一系列标准评估合成输出，包括格式一致性、逻辑连贯性（例如，确保抵押贷款账户与房屋所有权状态一致）和现实性（例如，生成合理的利率）。只有得分较高的数据（达到 9 分或 10 分的阈值）才会被保留。该筛选过程起到质量把关的作用，确保最终数据集既真实又具有统计稳健性。

步骤 4：验证数据

工作流程的最后阶段涉及统计和可视化验证。通过使用 KL 散度（用于分类变量）和均值/标准差差异（用于连续特征）等指标将合成数据与原始数据集进行比较，我们证实合成数据反映了现实世界的分布。

影响：无损隐私

Cloudera 的方法生成的数据不包含个人身份信息（PII）和敏感模式，但保留了训练准确模型所需的统计保真度。这使得公司能够与第三方系统共享合成数据，或与外部合作伙伴协作，而无需担心数据泄露或监管处罚。

如表 1 所示，我们发现使用 Llama 3.3 70B-Instruct 模型生成结构化贷款数据（总共 27 列），100% 的生成数据与预期输出匹配，97.2% 的数据在 LLM 判断下没有逻辑上的跨列错误，统计均值与原始分布偏差 12%，跨列相关性偏差为 0.24。

使用 Llama 3.3-70B-Instruct 生成结构化数据的结果
数据完整性	100% 格式精度	合成数据与原始结构完全吻合。
统计保真度	12% 平均偏差	合成数据准确模拟了原始数据的关键统计特性。
跨列逻辑一致性	2.8% 逻辑错误	生成的数据反映了现实世界的逻辑关系。
跨列相关性保持	0.24%相关性差异	特征间的关键连接被真实地保留。

表 1：使用 Llama 3.3-70B-Instruct 生成结构化数据的结果

总结

随着 AI 模型日益复杂和隐私法规的收紧，对高质量、符合隐私要求的数据需求只会愈发强烈。在未来几年，我们预计结构化数据生成方法将重新定义从医疗保健到金融等各个行业，在这些行业中，数据隐私是不可妥协的。

Cloudera 的结构化合成数据方法表明，企业可以在不牺牲隐私或性能的情况下满足这一需求。通过结合集群、Cloudera Synthetic Data Studio 和严格的评估，组织可以释放结构化数据的全部潜力。

如果您有兴趣了解更多信息，请参加我们的 Cloudera AI Studios 产品导览，或通过ai_feedback@cloudera.com 联系我们的团队。

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

该作者的更多作品 ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

该作者的更多作品 ›

Robert Hryniewicz

Director of Product Marketing

该作者的更多作品 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.