kafka auto.offset.reset latest earliest 详解

kafka auto.offset.reset latest earliest 详解
auto.offset.reset关乎kafka数据的读取，是一个非常重要的设置。常用的二个值是latest和earliest，默认是latest。

一，latest和earliest区别

1，earliest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费

2，latest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据

提交过offset，latest和earliest没有区别，但是在没有提交offset情况下，用latest直接会导致无法读取旧数据。

二，创建topic
查看复制打印 ?
1. # bin/kafka-topics.sh --create --zookeeper bigserver1:2181,bigserver2:2181,testing:2181 --replication-factor 2 --partitions 3 --topic tank
2. Created topic "tank".
4. # bin/kafka-topics.sh --describe --zookeeper bigserver1:2181,bigserver2:2181,testing:2181 --topic tank
5. Topic:tank PartitionCount:3 ReplicationFactor:2 Configs:
6. Topic: tank Partition: 0 Leader: 0 Replicas: 0,2 Isr: 0,2
7. Topic: tank Partition: 1 Leader: 1 Replicas: 1,0 Isr: 1,0
8. Topic: tank Partition: 2 Leader: 2 Replicas: 2,1 Isr: 2,1
三，生产数据和接收生产数据
1. [root@bigserver1 kafka]# bin/kafka-console-producer.sh --broker-list bigserver1:9092,bigserver2:9092,testing:9092 --topic tank
2. >1
3. >2
4. >3
5. >4
6. >5
7. >6
8. 。。。。。。。。。省略。。。。。。。。。
9. [root@bigserver1 kafka]# bin/kafka-console-consumer.sh --bootstrap-server bigserver1:9092,bigserver2:9092,testing:9092 --topic tank --from-beginning
10. 1
11. 2
12. 3
13. 4
14. 5
15. 6
16. 。。。。。。。。省略。。。。。。。。
四，测试代码
查看复制打印 ?
1. object tank {
2. def main(args: Array[String]): Unit = {
3. val pros: Properties = new Properties
4. pros.put("bootstrap.servers", "bigserver1:9092,bigserver2:9092,testing:9092")
5. /*分组由消费者决定,完全自定义,没有要求*/
6. pros.put("group.id", "tank")
7. //设置为true 表示offset自动托管到kafka内部的一个特定名称为__consumer_offsets的topic
8. pros.put("enable.auto.commit", "false")
9. pros.put("auto.commit.interval.ms", "1000")
10. pros.put("max.poll.records", "5")
11. pros.put("session.timeout.ms", "30000")
12. //只有当offset不存在的时候，才用latest或者earliest
13. pros.put("auto.offset.reset", "latest")
15. pros.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
16. pros.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
18. val consumer: KafkaConsumer[String, String] = new KafkaConsumer[String, String](pros)
20. /*这里填写主题名称*/
21. consumer.subscribe(util.Arrays.asList("tank"))
23. val system = akka.actor.ActorSystem("system")
24. system.scheduler.schedule(0 seconds, 30 seconds)(tankTest.saveData(args,consumer))
26. }
28. object tankTest {
29. def saveData(args: Array[String],consumer: KafkaConsumer[String,String]): Unit = {
30. val records: ConsumerRecords[String, String] = consumer.poll(Duration.ofSeconds(3))
31. if (!records.isEmpty) {
32. for (record <- records) {
33. if (record.value != null && !record.value.equals("")) {
34. myLog.syncLog(record.value + " 准备开启消费者出列数据", "kafka", "get")
35. }
36. }
37. consumer.commitSync()
39. }
41. }
42. }
43. }
五，测试1，过程如下

1，查看offset
查看复制打印 ?
1. # bin/kafka-consumer-groups.sh --bootstrap-server bigserver1:9092,bigserver2:9092,testing:9092 --group tank --describe
2. Error: Consumer group 'tank' does not exist.
在没有提交offset的情况，会报这个错误

2，latest模式运行，拉取不到数据

2019-04-28 16:22:55 INFO Fetcher:583 - [Consumer clientId=consumer-1, groupId=tank] Resetting offset for partition tank-1 to offset 11.
2019-04-28 16:22:55 INFO Fetcher:583 - [Consumer clientId=consumer-1, groupId=tank] Resetting offset for partition tank-0 to offset 11.
2019-04-28 16:22:55 INFO Fetcher:583 - [Consumer clientId=consumer-1, groupId=tank] Resetting offset for partition tank-2 to offset 11.

3，再用kafka-console-producer.sh生产数据，latest是可以拉到的，并且是拉取最新的数据（程序运行以后的数据），以前提交的数据是拉取不到的。

4，查看offset不报错了
查看复制打印 ?
1. # bin/kafka-consumer-groups.sh --bootstrap-server bigserver1:9092,bigserver2:9092,testing:9092 --group tank --describe
2. Consumer group 'tank' has no active members.
4. TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID
5. tank 1 12 14 2 - - -
6. tank 0 12 14 2 - - -
7. tank 2 13 15 2 - - -
5，将auto.offset.reset设置成earliest，第一次生产的数据也取不到

在这里要注意：如果kafka只接收数据，从来没来消费过，程序一开始不要用latest，不然以前的数据就接收不到了。应当先earliest，然后二都都可以。

六，测试2

1，重新创建topic，重复上面的第二，第三步

2，代码端先earliest，最早提交的数据是可以获取到的，再生产数据也是可以获取到的。

3，将auto.offset.reset设置成latest，再生产数据也是可以获取到的。

七，结论

虽然auto.offset.reset默认是latest，但是建议使用earliest。

参考链接：http://blog.51yip.com/hadoop/2130.html
相关阅读:
四种会话跟踪技术的对比
 【转载】.NET中使用Redis
【转载】Windows平台下利用APM来做负载均衡方案
 【转载】Windows平台分布式架构实践
 MVC插件式开发平台
 如何用JS和HTML 做一个桌面炒股小插件【原创】
如果用HTML5做一个在线视频聊天【原创】
BraveOS正式版发布，希望大家下载使用
 短期将不再更新更多内容，见谅！
打造自己的移动绿色版 Python 环境
原文地址：https://www.cnblogs.com/xiohao/p/12774526.html