ClouderaNOW  Learn about the latest innovations in data, analytics, and AI   |   April 9

立即注册
概览

什么是流处理?

Cloudera Stream Processing  通过提供分析流数据复杂模式的能力并获得可指导实际工作的情报,助力客户将流转化为数据产品。

Stream Processing由 Apache Flink 和 Kafka 提供支持,提供完整的企业级流管理和有状态处理解决方案。Kafka 作为存储流底层,Flink 作为核心流内处理引擎,以及对行业标准接口(如 SQL 和 REST )的鼎力支持,这三者的结合使开发人员、数据分析师和数据科学家能够轻松构建混合流数据管道,为实时数据产品、仪表盘、商业智能应用、微服务和数据科学notebook提供支持。 

欺诈检测、网络威胁分析、制造智能、商务优化、实时报价、即时贷款审批等用例现在都可以通过将数据处理组件向上游移动来满足这些实时需求。


CLOUDERA STREAM PROCESSING 支持的混合流数据管道

混合流管道图 | Cloudera

Stream Processing 用例

  • 欺诈检测
  • 客户分析
  • 市场监测
  • 日志分析

欺诈检测


主动检测,防止因财务欺诈造成数百万美元的损失。 

来自零售业、金融服务业和其它行业的企业都一如既往地努力保护客户数据并防止发生金融欺诈。Cloudera Streaming Processing 可处理客户交易的实时流,识别模式,创建预测性警报,并发现有价值情报,以防止潜在的欺诈。

PT Bank Rakyat Indonesia:利用大数据、人工智能和机器学习更好地了解客户

欺诈率降低了40%。

阅读案例研究

客户分析


实时客户分析可提高参与度、保留率和满意度。

每一家企业机构都需要通过实时分析来提高客户参与度,但由于数据量过大而难以实施。Cloudera Stream Processing 可实现在亚秒级延迟内处理海量的数据,同时能够实时检测客户互动并推荐更好的产品,实现对客户的分析。

大型航空公司:基于数据驱动的自动化功能以增强客户体验

仅需支付一次数据流的传输费用,即可将数据量减少 50%。

阅读案例研究

市场监测


每秒可处理数百万笔交易,并可扩展到PB级的财务信息。

金融证券交易所在客户对实时报表和更快速的 SLA 要求方面面临着挑战。但是,必须处理 PB 级的数据才能提供这些服务。Cloudera Streams Messaging 可以非常轻松地流式传输大量数据,因此证券交易所可以快速创建以市场为导向的实时分析并满足日益增长的SLA要求。

孟买证券交易所:世界上最快的证券交易所利用实时分析来改善数据治理和行业服务水平协议(SLA)

运营成本降低了 95%。

阅读案例研究

日志分析


对日志记录基础架构进行现代化改造以获取实时分析。

日志数据对企业而言越来越有价值。但是,IT 机构正疲于应付有效的日志收集流程,向上游分发相关信息并生成关键指标。Cloudera Stream Processing 的功能有助于扩大日志处理范围,在整个公司范围内提供实时洞察,并显著降低运营成本。

环球电信(Globe Telecom):通过现代分析环境实现手机客户的数字化生活方式

管理 600PB 的移动数据量。

阅读案例研究

了解 Data-in-Motion Kubernetes 版本的详细信息

Stream Processing 功能

  • 由 Apache Flink 支持的流分析
  • 由 Apache Kafka 支持的流消息传递

流分析

Cloudera Streaming Analytics 由 Apache Flink 和 SQL Stream Builder 支持,可提供:

  • 低延迟流处理能力 
  • 使用户能够通过 REST 端点使用行业标准 SQL 和 API 编写流应用程序,从而简化开发步骤
  • 高级窗口技术用以构建复杂的事件驱动分析
  • 支持多云和混合云模式

关键功能

Cloudera SQL Stream Builder是一个全面的交互式用户界面,用于使用SQL创建状态流处理作业,然后转换为优化的Flink作业。通过使用SQL,您可以简单方便地造出可过滤、聚合、路由和以其他可以改变数据流的表达式。SQL Stream Builder是一类作业管理接口,您可以使用它在流数据上编写和运行 SQL,并为结果创建持久的数据API。

确保数据在任何时候都只处理一次,即使是在出错和重试期间。例如,当消费者支付房屋抵押贷款时,金融服务公司需要使用流处理来协调数百个后台交易系统。

检测和处理乱序的流事件。例如,实时欺诈服务需要确保以正确的顺序处理数据,即使数据到达较晚。

实现内存中一次一个的流处理性能。例如,以毫秒级延迟处理 3000 万活跃用户的信用卡支付、转账和余额查询请求。

在处理数百个流源和每个流每秒数百万个事件时也可触发事件。例如,当患者在急诊室登记时,系统会访问外部系统,从数百个来源中提取特定于患者的数据,以便在患者到达检查室时,这些数据可以在电子病历中找到。

除非能够轻松地将流与其他静态数据源(包括数仓、关系数据库和数据湖)集成、连接和融合,否则流数据没有什么价值。使用现成的连接器或自己的连接器来配置数据提供者连接到任何数据源。一旦创建了数据提供者,用户就可以使用 DDL 轻松地创建虚拟表。使用众所周知的 SQL 结构(如连接和聚合),多个流和批处理数据源之间的复杂集成变得更加容易。

流消息传递

由 Apache Kafka 提供支持,Cloudera Streams Messaging 可提供:

  • Streams Messaging Manager 用于监控/操作集群
  • Streams Replication Manager 用于高可用性/灾难恢复部署
  • Schema Registry 用于集中模式管理
  • Kafka Connect 用于简洁的数据移动和变更数据捕获,巡航控制用于智能重新平衡和自我修复
  • 支持多云和混合云模式

关键功能

每秒可支持数百万条消息,具有低延迟和高吞吐量,并且可弹性透明地扩展,而无需停机。针对各种各样的流数据计划,使企业能够及时地满足客户需求,提供更好的服务并主动管理风险。

Streams Messaging Manager 提供了一个单一的界面管理系统,可以端到端地查看数据是如何在 Kafka 集群中的生产者、代理、主题和使用者之间移动的,从而使您能够跟踪从边缘到云端的数据沿袭和治理特性。Streams Messaging Manager 还通过智能过滤和排序简化了 Kafka 环境的故障排除流程。

基于 Mirrormaker 2 的 Streams Replication Manager 提供了容错性、可扩展且健壮的跨集群 Kafka 主题复制,以及集群和主题级别的复制监控和指标功能。提供了高可用性、灾难恢复、云迁移、地理邻近度以及许多其它功能。

借助 Schema Registry,您可以在共享模式存储库中管理、共享和支持所有生产者和客户模式的演变,从而允许应用程序在整个 Kafka 环境中灵活地进行交互。安全可靠地削减由于模式不匹配而发生的中断问题。

借助 Cruise Control,您可以管理大型 Kafka 安装并对其进行负载均衡,以及自动检测和修复异常。解决棘手的问题,例如频繁发生的硬件/虚拟机故障,集群扩展/缩减以及代理之间的负载偏斜。

Cloudera SDX 在所有组件之间提供了集中式安全、控制策略、治理和数据沿袭。它们仅需一次设置即可自动执行,与供应商无关,从而使您可以放心地采用多云和混合云策略。支持数据安全的四大重要支柱:身份、访问权限、数据保护和可见性。

任意数据,任意地点,部署选项灵活


公共云上的流处理

Cloudera 拥有一整套集成的流处理功能,可部署在公有云中以实现高效扩展。

Cloudera Stream Processing 基于 Apache Kafka 和 Apache Flink 引擎而构建,并配备企业级工具以简化部署和管理。

Streams Messaging Manager 借助一系列功能扩展了Apache Kafka,可实现schema治理和监控、灾难恢复、智能再平衡以及强大的访问控制和调查。

SQL Stream Builder 通过强大的 SQL Console扩展了 Apache Flink,使 SQL 分析师可以查询流数据以及下游应用的协作和版本控制处理逻辑。


本地流处理

Cloudera可本地部署,并通过流数据为实时管道和应用控制成本和缩小时延。Cloudera Stream Processing 基于 Apache Kafka 和 Apache Flink 引擎而构建,并配备企业级工具以简化部署和管理。 


Cloudera Streaming - Kubernetes Operators

Cloudera Stream Processing功能也可 作为 Kubernetes Operator 使用 ,可通过现有的 Kubernetes 集群独立部署,更轻松地实现Kafka在企业中的部署和扩展。Kubernetes operator 中部署了Kafka, Cruise Control 和 Zookeeper,通过强大的信息代理服务在 Kubernetes 上实现流用例,并借助 Flink 和 SQL Stream Builder 提供现代分布式流处理引擎来构建在容器上本地运行的实时流应用。

流处理产品浏览

Cloudera Stream Processing 社区版


Stream Processing Community Edition(Stream Processing社区版)可以简化流处理器的开发工作,让您直接从桌面或其他开发节点完成。


分析师、数据科学家和开发人员现在可以评估新特性,在本地开发基于 SQL 的流处理器,以及开发 Kafka 消费者/生产者和 Kafka 连接器,都可在本地完成,然后再进入生产。


使用Stream Processing社区版,只需5分钟即可开始运行。

GigaOm 流数据平台雷达报告

Cloudera被评定为2024年流数据平台市场领导者
 

下载报告

GigaOm 流数据平台雷达报告| Cloudera
Webinar

借助全新 Kubernetes Operator,加速流管道部署

Datasheet

流处理产品资料

Whitepaper

Cloudera 提供了当今最好的 Kafka 生态系统

Whitepaper

借助Cloudera,可实现对Apache Kafka的管理、监控和复制

准备好了吗,我们开始吧?

Your form submission has failed.

This may have been caused by one of the following:

  • Your request timed out
  • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.