• 【kafka】设置指定topic和group_id消耗的offset


    该博文方法有问题,正确方案在http://www.cnblogs.com/dplearning/p/7992994.html

    背景:

    搭建了一个kafka集群,建立了topic test,用group_id  ttt 消耗topic.

    但问题是,我消费的处理太慢了,导致了上百万数据的挤压,即offset滞后上百万

    现在,想放弃上一次的任务,执行新的任务。但是topic名称和group_id不能变化。

    想了几个方案,觉得重置offset是最符合我需求的。

    import os
    from confluent_kafka import Consumer, KafkaError, TopicPartition
    
    # 获取最大logsize
    def get_logsize():
        cmd = "/usr/local/share/applications/kafka/kafka_2.11-0.11.0.0/bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group ttt --zookeeper x.x.x.x:2181 --topic test"
        res = os.popen(cmd).read()
        logsize = res.split("
    ")[1].split()[4]
        return int(logsize)
    
    c = Consumer({'bootstrap.servers': 'x.x.x.x:9092',
                  'group.id': 'ttt',
                  'default.topic.config': {'auto.offset.reset': 'largest'}})
    c.subscribe(['test'])
    logsize = get_logsize()
    tp = TopicPartition('test', 0, logsize)
    c.commit(offsets = [tp])  # 直接将offset置为logsize,跳过未消费的数据

    我没找到怎么直接通过confluent_kafka获取logsize.

    https://docs.confluent.io/3.0.0/clients/confluent-kafka-python/#configuration 有提到OFFSET_END,但是我用了后OFFSET_END值为-1,并没有将offset置为最新。

    只好用命令行获取了.............

    方案二(放弃):删除topic以及所有相关数据。

    上网查了查,太复杂了。要删zookeeper和kafka的log文件,还要重启服务。

    这跟我想的不一样啊,难道kafka就没有直接清除数据的指令吗.............

    整体感受:kafka的API比我想象中少很多,或者是我没找到....

  • 相关阅读:
    网络编程
    并发编程-线程池
    并发编程-集合
    并发编程-AQS
    并发编程-CAS
    并发编程-volatile和synchronized的区别
    并发编程-synchronized
    并发编程-java内存模型
    JVM-分代垃圾回收器
    性能优化
  • 原文地址:https://www.cnblogs.com/dplearning/p/7571302.html
Copyright © 2020-2023  润新知