概览
什么是流处理?
Cloudera Stream Processing 通过提供分析流数据复杂模式的能力并获得可指导实际工作的情报,助力客户将流转化为数据产品。
Stream Processing由 Apache Flink 和 Kafka 提供支持,提供完整的企业级流管理和有状态处理解决方案。Kafka 作为存储流底层,Flink 作为核心流内处理引擎,以及对行业标准接口(如 SQL 和 REST )的鼎力支持,这三者的结合使开发人员、数据分析师和数据科学家能够轻松构建混合流数据管道,为实时数据产品、仪表盘、商业智能应用、微服务和数据科学notebook提供支持。
欺诈检测、网络威胁分析、制造智能、商务优化、实时报价、即时贷款审批等用例现在都可以通过将数据处理组件向上游移动来满足这些实时需求。
CLOUDERA STREAM PROCESSING 支持的混合流数据管道

Stream Processing 用例
- 欺诈检测
- 客户分析
- 市场监测
- 日志分析
客户分析
实时客户分析可提高参与度、保留率和满意度。
每一家企业机构都需要通过实时分析来提高客户参与度,但由于数据量过大而难以实施。Cloudera Stream Processing 可实现在亚秒级延迟内处理海量的数据,同时能够实时检测客户互动并推荐更好的产品,实现对客户的分析。
Stream Processing 功能
-
由 Apache Flink 支持的流分析
-
由 Apache Kafka 支持的流消息传递
Cloudera SQL Stream Builder是一个全面的交互式用户界面,用于使用SQL创建状态流处理作业,然后转换为优化的Flink作业。通过使用SQL,您可以简单方便地造出可过滤、聚合、路由和以其他可以改变数据流的表达式。SQL Stream Builder是一类作业管理接口,您可以使用它在流数据上编写和运行 SQL,并为结果创建持久的数据API。
确保数据在任何时候都只处理一次,即使是在出错和重试期间。例如,当消费者支付房屋抵押贷款时,金融服务公司需要使用流处理来协调数百个后台交易系统。
检测和处理乱序的流事件。例如,实时欺诈服务需要确保以正确的顺序处理数据,即使数据到达较晚。
实现内存中一次一个的流处理性能。例如,以毫秒级延迟处理 3000 万活跃用户的信用卡支付、转账和余额查询请求。
在处理数百个流源和每个流每秒数百万个事件时也可触发事件。例如,当患者在急诊室登记时,系统会访问外部系统,从数百个来源中提取特定于患者的数据,以便在患者到达检查室时,这些数据可以在电子病历中找到。
除非能够轻松地将流与其他静态数据源(包括数仓、关系数据库和数据湖)集成、连接和融合,否则流数据没有什么价值。使用现成的连接器或自己的连接器来配置数据提供者连接到任何数据源。一旦创建了数据提供者,用户就可以使用 DDL 轻松地创建虚拟表。使用众所周知的 SQL 结构(如连接和聚合),多个流和批处理数据源之间的复杂集成变得更加容易。
每秒可支持数百万条消息,具有低延迟和高吞吐量,并且可弹性透明地扩展,而无需停机。针对各种各样的流数据计划,使企业能够及时地满足客户需求,提供更好的服务并主动管理风险。
Streams Messaging Manager 提供了一个单一的界面管理系统,可以端到端地查看数据是如何在 Kafka 集群中的生产者、代理、主题和使用者之间移动的,从而使您能够跟踪从边缘到云端的数据沿袭和治理特性。Streams Messaging Manager 还通过智能过滤和排序简化了 Kafka 环境的故障排除流程。
基于 Mirrormaker 2 的 Streams Replication Manager 提供了容错性、可扩展且健壮的跨集群 Kafka 主题复制,以及集群和主题级别的复制监控和指标功能。提供了高可用性、灾难恢复、云迁移、地理邻近度以及许多其它功能。
借助 Schema Registry,您可以在共享模式存储库中管理、共享和支持所有生产者和客户模式的演变,从而允许应用程序在整个 Kafka 环境中灵活地进行交互。安全可靠地削减由于模式不匹配而发生的中断问题。
借助 Cruise Control,您可以管理大型 Kafka 安装并对其进行负载均衡,以及自动检测和修复异常。解决棘手的问题,例如频繁发生的硬件/虚拟机故障,集群扩展/缩减以及代理之间的负载偏斜。
Cloudera SDX 在所有组件之间提供了集中式安全、控制策略、治理和数据沿袭。它们仅需一次设置即可自动执行,与供应商无关,从而使您可以放心地采用多云和混合云策略。支持数据安全的四大重要支柱:身份、访问权限、数据保护和可见性。
任意数据,任意地点,部署选项灵活
公共云上的流处理
Cloudera 拥有一整套集成的流处理功能,可部署在公有云中以实现高效扩展。
Cloudera Stream Processing 基于 Apache Kafka 和 Apache Flink 引擎而构建,并配备企业级工具以简化部署和管理。
Streams Messaging Manager 借助一系列功能扩展了Apache Kafka,可实现schema治理和监控、灾难恢复、智能再平衡以及强大的访问控制和调查。
SQL Stream Builder 通过强大的 SQL Console扩展了 Apache Flink,使 SQL 分析师可以查询流数据以及下游应用的协作和版本控制处理逻辑。
本地流处理
Cloudera可本地部署,并通过流数据为实时管道和应用控制成本和缩小时延。Cloudera Stream Processing 基于 Apache Kafka 和 Apache Flink 引擎而构建,并配备企业级工具以简化部署和管理。
Cloudera Streaming - Kubernetes Operators
Cloudera Stream Processing功能也可 作为 Kubernetes Operator 使用 ,可通过现有的 Kubernetes 集群独立部署,更轻松地实现Kafka在企业中的部署和扩展。Kubernetes operator 中部署了Kafka, Cruise Control 和 Zookeeper,通过强大的信息代理服务在 Kubernetes 上实现流用例,并借助 Flink 和 SQL Stream Builder 提供现代分布式流处理引擎来构建在容器上本地运行的实时流应用。
Cloudera Stream Processing 社区版
Stream Processing Community Edition(Stream Processing社区版)可以简化流处理器的开发工作,让您直接从桌面或其他开发节点完成。
分析师、数据科学家和开发人员现在可以评估新特性,在本地开发基于 SQL 的流处理器,以及开发 Kafka 消费者/生产者和 Kafka 连接器,都可在本地完成,然后再进入生产。
使用Stream Processing社区版,只需5分钟即可开始运行。

准备好了吗,我们开始吧?