其他
最新消息!Cloudera 全球发行版正式集成 Apache Flink
The following article is from Ververica Author Cloudera 博客
摘要:近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。
本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。
在 YARN 上支持 Flink 1.9.1 支持在 Cloudera 托管集群上安装 Flink 支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群 从 Kafka 或 HDFS 读取数据源 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义 恰好一次的语义 基于事件时间的语义 数据接收器写入 Kafka,HDFS 和 HBase 与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化
平台集成,可任意扩展 Flink
为什么选择 Flink?
电信网络监控:使用复杂的窗口逻辑,基于网络中的流数据,通过预先计算有关停机的响应和修复所需的 ETA 来处理客户投诉 内容推荐引擎:在用户加载网页时向其提供推荐和搜索结果的视频流服务,需要复杂的逻辑,同时每天要主动处理数十亿个事件 搜索优化:搜索引擎实时优化搜索排名 点击流分析:高流量电子商务网站基于实时点击流数据收集并提供最佳的客户体验 应用程序监视:大型企业评估了数千个可定制的警报规则,这些警报规则涉及指标和日志流并检测异常 欺诈检测:金融组织从各种来源的数百万实时财务数据流中检测欺诈模式 游戏分析:要了解游戏平台上数百万每日用户的状态并向业务团队提供分析,需要以极高的规模处理大量数据