Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义 - 数据库编程

TOP

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义(二)

2019-09-17 15:24:58 【大中小】浏览:30次

), record.value()); } } }finally{ consumer.close(); }

其中有一个参数是 enable.auto.commit

若设置为true consumer在消费之前提交位移就实现了at most once

若是消费后提交就实现了 at least once 默认的配置就是这个。

kafka consumer的参数enable.auto.commit的默认值为true ，所以默认的consumer级别是at least once。也并不能exactly once。

file
图 consumer-groups

通过了解producer端与consumer端的设置，我们发现kafka在两端的默认配置都是at least once，肯能重复，通过配置的话呢也不能做到exactly once，好像kafka的消息一定会丢失或者重复的，是不是没有办法做到exactly once了呢？

确实在kafka 0.11.0.0版本之前producer端确实是不可能的，但是在kafka 0.11.0.0版本之后，kafka正式推出了idempotent producer。

也就是幂等的producer还有对事务的支持。

kafka 0.11.0.0版本引入了idempotent producer机制，在这个机制中同一消息可能被producer发送多次，但是在broker端只会写入一次，他为每一条消息编号去重，而且对kafka开销影响不大。

如何设置开启呢？需要设置producer端的新参数 enable.idempotent 为true。

而多分区的情况，我们需要保证原子性的写入多个分区，即写入到多个分区的消息要么全部成功，要么全部回滚。

这时候就需要使用事务，在producer端设置 transcational.id为一个指定字符串。

这样幂等producer只能保证单分区上无重复消息；事务可以保证多分区写入消息的完整性。

file

图事务

这样producer端实现了exactly once，那么consumer端呢？

consumer端由于可能无法消费事务中所有消息，并且消息可能被删除，所以事务并不能解决consumer端exactly once的问题，我们可能还是需要自己处理这方面的逻辑。比如自己管理offset的提交，不要自动提交，也是可以实现exactly once的。

还有一个选择就是使用kafka自己的流处理引擎，也就是Kafka Streams，

设置processing.guarantee=exactly_once，就可以轻松实现exactly once了。

更多实时计算,Flink,Kafka等相关技术博文，欢迎关注实时流式计算

file