• 05-spark streaming & kafka


    1、如何消费已经被消费过的数据?

        答:采用不同的group

    2、如何自定义去消费已经消费过的数据?

        Conosumer.properties配置文件中有两个重要参数

        auto.commit.enable:如果为true,则consumer的消费偏移offset会被记录到zookeeper。下次consumer启动时会从此位置继续消费

        auto.offset.reset 该参数只接受两个常量largest和Smallest,分别表示将当前offset指到日志文件的最开始位置和最近的位置。

        实现自定义消费进度还是挺复杂的!这里略,知道有上面两个参数就行

    3、kafka partition和consumer数目关系

        1)如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数不要大于partition数 。

        2)如果consumer比partition少,一个consumer会对应于多个partitions,这里主要合理分配consumer数和partition数,否则会导致partition里面的数据被取的不均匀

         最好partiton数目是consumer数目的整数倍,所以partition数目很重要,比如取24,就很容易设定consumer数目-->12 。

        3)如果consumer从多个partition读到数据,不保证数据间的顺序性,

         kafka只保证在一个partition上数据是有序的,但多个partition,根据你读的顺序会有不同

        4)增减consumer,broker,partition会导致rebalance,所以rebalance后consumer对应的partition会发生变化

    4、kafka topic 副本分配?

        Kafka尽量将所有的Partition均匀分配到整个集群上。一个典型的部署方式是一个Topic的Partition数量大于Broker的数量

        1)如何分配副本:

          Producer在发布消息到某个Partition时,先通过ZooKeeper找到该Partition的Leader,然后无论该Topic的Replication Factor为多少(也即该Partition有多少个Replica(副本)),
          Producer只将该消息发送到该Partition的Leader。Leader会将该消息写入其分区目录下的Log中。每个Follower都从Leader pull数据。

        2)Kafka分配Replica的算法如下:

         将所有Broker(假设共n个Broker)和待分配的Partition排序
         将第i个Partition分配到第(i mod n)个Broker上
         将第i个Partition的第j个Replica分配到第((i + j) mode n)个Broker上

        注:Follower只提供读服务,可以供消费者读。但是Fllower不提供写服务,leader供生产者写。

    5、kafka如何设置生存周期与清理数据?

        server.properties 找相关配置

    6、kafka direct是什么? 为什么要用这个,有什么优点?和其他的有什么区别。

      1)数据不丢失,数据一定会被处理

          Direct的方式是会直接操作kafka底层的元数据信息,这样如果计算失败了,可以把数据重新读一下,重新处理。
          即数据一定会被处理。拉数据,是RDD在执行的时候直接去拉数据。(如果不开启wal,Receiver数据可能会发生丢失,所以有些数据不会被处理)

      2)RDD和kafka的patition是一对一

          由于底层是直接读数据,没有所谓的Receiver,RDD的partition和kafka的partition是一致的。而Receiver的方式,这2个partition是没任何关系的。
          所以读数据的地方,处理数据的地方和驱动数据处理的程序都在同样的机器上,可以边读边写,这样就可以极大的提高性能。

          不足之处是由于RDD和kafka的patition是一对一的,想提高并行度就会比较麻烦。提高并行度还是repartition,即重新分区,因为产生shuffle,很耗时。

      3)不需要开启wal机制

          减少了写文件,极大的提升了效率,还至少能节省一倍的磁盘空间

    7、Spark-Streaming获取kafka数据的两种方式,并简要介绍他们的优缺点?

      Receiver方式:

          当一个任务从driver发送到executor执行的时候,这时候,将数据拉取到executor中做操作,但是如果数据太大的话,这时候不能全放在内存中,
          receiver通过WAL,设置了本地存储,他会存放本地,保证数据不丢失,然后使用Kafka高级API通过zk来维护偏移量,保证数据的衔接性,
          其实可以说,receiver数据在zk获取的,这种方式效率低,而且极易容易出现数据丢失

      Direct 方式:

          他使用Kafka底层Api 并且消费者直接连接kafka的分区上,因为createDirectStream创建的DirectKafkaInputDStream每个batch所对应的RDD的分区与kafka分区一一对应,
          但是需要自己维护偏移量,迭代计算,即用即取即丢,不会给内存造成太大的压力,这样效率很高

    8、 kafka在高并发的情况下,如何避免消息丢失和消息重复?

      消息丢失解决方案:

          首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=-1,即需要相应的所有处于ISR的分区都确认收到该消息后,才算发送成功

      消息重复解决方案:

          1、消息可以使用唯一id标识
          2、生产者(acks=1 代表至少成功发送一次)
          3、消费者 (offset手动提交,业务逻辑成功处理后,提交offset)
          4、落表(主键或者唯一索引的方式,避免重复数据)
          5、业务逻辑处理(选择唯一主键存储到Redis或者mongdb中,先查询是否存在,若存在则不处理;若不存在,先插入Redis或Mongdb,再进行业务逻辑处理)

    9、kafka怎么保证数据消费一次且仅消费一次

        幂等producer:保证发送单个分区的消息只会发送一次,不会出现重复消息

        事务(transaction):保证原子性地写入到多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚

        流处理EOS:流处理本质上可看成是“读取-处理-写入”的管道。此EOS保证整个过程的操作是原子性。注意,这只适用于Kafka Streams

    10、kafka怎么保证数据的一致性和可靠性

        可以通过acks参数设置数据可靠性的级别

        0: 不论写入是否成功,server不需要给Producer发送Response,如果发生异常,server会终止连接,触发Producer更新meta数据;
        1: Leader写入成功后即发送Response,此种情况如果Leader fail,会丢失数据
        -1: 等待所有ISR接收到消息后再给Producer发送Response,这是最强保证

    11、kafka到spark streaming怎么保证数据完整性,怎么保证数据不重复消费?

        Receiver方式

          开启WAL(预写日志),将从kafka中接受到的数据写入到日志文件中,所有数据从失败中可恢复。
        Direct方式

          依靠checkpoint机制来保证。(记录消费者组的偏移量)

        重复消费:

          幂等,事务

    12、kafka的消费者高阶和低阶API有什么区别?

        kafka 提供了两套 consumer API:The high-level Consumer API和 The SimpleConsumer API

        high-level consumer API :提供了一个从 kafka 消费数据的高层抽象,

        SimpleConsumer API :则需要开发人员更多地关注细节。

    13、kafka的exactly-once

        幂等producer:保证发送单个分区的消息只会发送一次,不会出现重复消息
        事务(transaction):保证原子性地写入到多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚
        流处理EOS:流处理本质上可看成是“读取-处理-写入”的管道。此EOS保证整个过程的操作是原子性。注意,这只适用于Kafka Streams

    14、如何保证从Kafka获取数据不丢失?

        1.生产者数据的不丢失

            kafka的ack机制:在kafka发送数据的时候,每次发送消息都会有一个确认反馈机制,确保消息正常的能够被收到。

        2.消费者数据的不丢失

            通过offset commit 来保证数据的不丢失,kafka自己记录了每次消费的offset数值,下次继续消费的时候,接着上次的offset进行消费即可。

    15、 spark实时作业宕掉,kafka指定的topic数据堆积怎么办?

        应对措施:

          ①spark.streaming.concurrentJobs=10:提高Job并发数,从源码中可以察觉到,这个参数其实是指定了一个线程池的核心线程数而已,没有指定时,默认为1。

          ②spark.streaming.kafka.maxRatePerPartition=2000:设置每秒每个分区最大获取日志数,控制处理数据量,保证数据均匀处理。

          ③spark.streaming.kafka.maxRetries=50:获取topic分区leaders及其最新offsets时,调大重试次数。

          ④在应用级别配置重试

            spark.yarn.maxAppAttempts=5
            # 尝试失败有效间隔时间设置
            spark.yarn.am.attemptFailuresValidityInterval=1h

    16、produce向kafka中发送数据产生的offset 怎么算(给你传入几条大小的消息 求offset是多少)

        什么是offset

          offset是consumer position,Topic的每个Partition都有各自的offset.
          消费者需要自己保留一个offset,从kafka 获取消息时,只拉去当前offset 以后的消息。
          Kafka 的scala/java 版的client 已经实现了这部分的逻辑,将offset 保存到zookeeper 上

        1) auto.offset.reset

          如果Kafka没有开启Consumer,只有Producer生产了数据到Kafka中,此后开启Consumer。
          在这种场景下,将auto.offset.reset设置为largest(最近),那么Consumer会读取不到之前Produce的消息,只有新Produce的消息才会被Consumer消费

        2) auto.commit.enable(例如true,表示offset自动提交到Zookeeper)

        3) auto.commit.interval.ms(例如60000,每隔1分钟offset提交到Zookeeper)

        4) offsets.storage

          Select where offsets should be stored (zookeeper or kafka).默认是Zookeeper

        5) 基于offset的重复读

        6) Kafka的可靠性保证(消息消费和Offset提交的时机决定了At most once和At least once语义)

        Kafka默认实现了At least once语义(数据一定会被处理,但可能重复消费!)

  • 相关阅读:
    lsmod命令详解
    init命令详解
    runlevel 命令详解
    nohup命令详解
    nice和renice命令详解
    pstree命令详解
    ps命令详解
    crontab命令详解
    pkill命令详解
    killall命令详解
  • 原文地址:https://www.cnblogs.com/lihaozong2013/p/10605167.html
Copyright © 2020-2023  润新知