设为首页 加入收藏

TOP

SparkStreaming+kafak的direct模式逻辑分析(图片展示+文字说明)
2019-05-11 02:08:01 】 浏览:61
Tags:SparkStreaming kafak direct 模式 逻辑 分析 图片 展示 文字 说明

Sparkstreaming+kafka direct模式:

将kafka看成存储数据的一方,sparkstreaming处理数据主动去拿数据,不需要一个task一直被占用接受数据

sparkStreaming+kafka的direct模式的并行度:生成的dstream中的rdd的并行度与读取的kafka的topic的partition个数一致。Direct模式相对于receiver模式来说简化了并行度。

Direct模式没有使用zookeeper来维护消费者偏移量,使用的是spark来管理消费者的offset。默认将消费者offset存储在内存中,如果设置了checkpoint,那么在checkpoint中也有一份消费者offset。

Receiver模式和direct模式的区别:

简化并行度

Receiver是zookeeper来管理

Direct是自己管理,没有任何zookeeper的信息

Receiver是高级,direct是低级的。

直接读取kafaka中的数据,将kafka看成存储消息的一方

使用spark自己来管理消费者offset,默认存在内存中,如果设置checkpoint,那么在checkpoint中也有一份备份offset

如何从checkpoint中恢复消费者offset

恢复过程中,把旧的逻辑也恢复过来了,无法加载新的逻辑

采用了读取kafka低级API来实现消费,可以自己来维护offset。

】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇【MachineLearning】之 初识 下一篇open layer快速开始

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目