通过数据系谱降低云成本的三步

1 分钟阅读 • 发布者 Ron Pick

Data Lineage

您可曾许诺过给人摘月亮？如果是这样，很可能您不会事先知道价格。

然而，如果您向某人承诺一个云服务，您可以将成本精确计算到千分之一美分。

亚马逊、Azure 和 Google 提供的云数据存储成本计算器，其具体性会让您目不暇接：在 Google BigQuery 上进行流式读取需要多少 TiB 的数据？您想要在 Amazon Redshift 上使用 ra3.4xlarge 还是 ra3.xlplus 实例？以及需要多少个节点？

虽然将数据存储在云中通常被宣传为比使用本地数据存储更具成本效益，但事实上，降低云存储成本需要进行调查、消除和优化。我们一步一步来。

步骤 1：调查

降低数据存储成本的最简单方法之一是存储更少的数据。很明显是这样。简单吗，并不。

您有这么多数据是有原因的。有时这是一个很好的理由，例如运营、管理和业务流程，但有时原因并不那么好，比如 “我们还没有处理掉”。

在每个数据生态系统中，都存在着过时的、冗余的和质量不佳的数据，您可以——也应该——处理掉它们。但如何找到这些数据呢？

答案是自动数据系谱：数据管理员忠实的助手。

想象一下您有一根魔法棒，能帮您做春季大扫除。这根魔杖能告诉您家里的每件物品是在哪里买的，最后一次使用是什么时候，它的形状如何，您是否还有其他具有相同功能的物品等等。

这就是自动化数据系谱为您的数据生态系统所做的事情。放手去做，几分钟之内您就能完整地绘制出数据流图：哪些数据资产为哪些报告提供数据，以及追溯到哪些来源。全面的数据系谱在缩小的源系统级别和放大的列到列级别上都显示出来。它甚至可以进入 ETL 流程，并准确显示在数据移动过程中对数据执行了哪些转换。

绘制出完整的图景后，您就可以进入第二阶段：清除。

第 2 步：排除法

仔细查看您的数据系谱，并提出以下问题：

这些数据资产或数据用途（例如报告）中是否有任何冗余？
这些数据资产或数据用途是否已经过时或不再相关？

回答“是的”会指向可以清理的数据，直接降低基于云的存储成本。但要明智地清理！即使您已经识别出两个实际上是重复的数据资产，如果它们都被下游报告使用，在您准备好替代品之前，您不能只去删除其中一个。

利用您的数据系谱进行影响分析，使您能够预见业务流程变更的影响，并采取适当的预防措施以防止问题。

既然您已经识别并清除了不需要的数据（过时的、冗余的、质量差的），现在是时候转向需要保留但可以更高效存储的数据了。

步骤 3：优化

再次查看您的数据系谱映射，并就您存储的数据提出以下问题：

我们利用这些数据做什么？
我们需要多久访问一次？
当我们想要访问它时，它需要多快可用？

基于云的数据存储提供商通常提供多种存储级别，这些级别会根据其可访问性而有所不同。例如，Amazon S3 提供标准存储，用于存储频繁访问的数据（每 GB 0.023 美元）；标准 – 不频繁访问存储，用于存储不经常访问但需要时可在几毫秒内检索的数据（每 GB 0.0125 美元）；Glacier 灵活检索存储，用于存储归档和备份数据，检索时间从 1 分钟到 12 小时不等（每 GB 0.0036 美元）；以及 Glacier 深度归档存储，用于存储每年仅访问一两次且检索时间需要 12 小时的归档数据（每 GB 0.00099 美元）。

在标准存储中存储 1 TB 的数据每月需要 23 美元。在 Glacier 深度归档存储中存储同样的 1 TB 数据，每月只需 0.99 美元！如果您的组织目前将所有数据都塞入标准云存储，且未根据访问需求进行区分，优化存储可以显著降低存储成本。

从存储到计算，再回到存储

数据系谱可以通过显示以下两者来降低数据存储成本：

哪些数据可以删除
您可以更有效地存储哪些数据

但这还不是全部！减少数据可降低云存储成本，同时也可降低计算成本。云数据仓库，如 Snowflake 和 Amazon Redshift，通常在计算方面采用按使用量付费的模式，按照在数据集上运行查询所需的时间收费。查询中包含的数据越多，运行时间就越长，收费也就越高。

减少存储的数据量（或保持在标准存储中的数据量）通常意味着查询中包含的数据更少，间接降低计算成本。但数据系谱也为您提供了一种直接降低计算成本的方法：限制探索查询。

探索性查询往往会使用大量的计算能力。有了清晰的数据系谱图，您的数据团队可以准确看到相关数据的位置，从而能够在平台上进行更有针对性的查询，消除或减少对一般探索查询的需求。

后续步骤

如果云数据存储成本让您感到沮丧，是时候扭转局面，降低这些成本了。只需拿出您的自动化数据溯源魔法棒，然后按照以下步骤操作：调查！清除！优化！

看到数据存储成本下降了吗？不过，这可能需要付出更多的努力。但是，当您的企业从云数据服务提供商那里收到下一张更低的账单时，仍然会觉得很神奇。

想了解更多信息？申请演示，开始使用 Cloudera Octopai 数据系谱——这是一款自动化数据血缘解决方案，可以帮助您实施这些步骤，降低云存储成本。

Ron Pick

Director, Product Marketing, DI

该作者的更多作品 ›

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.