本文介绍了 Kafka Topic 的体系结构,并讨论了如何使用分区进行故障转移和并行处理。
1. Kafka Topic, Log, Partition
Kafka Topic(主题) 是一个有名字的记录流,Kafka 把 Record(记录)存储在 log 日志文件中。
一个主题被分解为多个 Partition(分区)。
Kafka 把 log 的多个分区分散到多个服务器中。
把一个 Topic 分解为多个分区,是为了速度、扩展性、存储量。
Topic 是天生的发布/订阅类型的消息传递方式,一个 Topic 可以有 0 个或者多个订阅者(consumer group 消费者组)。
Kafka Topic Partitions
一个 Topic 包含多个 Partition,一个 Partition 里面包含多条记录。
一条记录具体存储在那个分区呢?
如果记录有 key,那么就会根据 key 指定分区。
如果记录没有 key,默认使用轮询的方式指定分区。
Kafka 通过多分区的方式,使主题具有了扩展性,可以跨多个服务器,这样 producer 的写性能就提升了,多分区同样也提升了 consumer 的消费性能,因为可以并行消费,并行的上限就是分区的数量。
每个分区里面的记录是保证顺序的,如果是根据 key 指定分区的,那么相同 key 的记录都在同一个分区里,对于需要回放日志的场景非常有用。
Kafka 会对每个分区都进行复制,以保证高可用,便于做故障转移。
Kafka 记录的顺序
Kafka 只保证分区内的记录是有序的,不保证主题内的记录有序。
分区是一个有序的、不可变的记录序列。
Kafka 把分区作为一个结构化的提交日志,持续向分区中追加记录。
分区中每条记录都被指定一个序号,叫做 “offset”,offset 指定了每条记录在分区中的位置。
主题分区使 Kafka 日志可以扩展到超出单个服务器的大小。
分区必须适合其所在的服务器,但主题可以有多个分区,所以主题就可以跨越多个服务器。
一个分区是一个并行单元,一个分区一次只能由消费者组中的一个消费者操作。
如果消费者组中的一个消费者停止了,Kafka 会把其对应的分区再分配给组内其他消费者。
Kafka 主题分区复制
Kafka 可以对分区进行跨服务器复制,复制几份是可以配置的,复制分区是用于容错。
每个分区复制了多份,其中有一个是 leader,其他为 follower,leader 负责此分区的所有读写请求。
follower 从 leader 复制记录,并关注 leader 的存活状态。
2. 复制:分区的 Leader, Follower, and ISR
Kafka 通过 ZooKeeper 从多个分区中选举出一个 leader。
分区 leader 所在的服务器负责处理此分区的所有读写请求,写请求会从 leader 复制到 follower。
在所有 follower 当中,与 leader 保持同步复制的,称为 ISR(in-sync replica),如果 leader 故障了,会从 ISR 中选举出一个新的 leader。
被所有 ISR 都复制完成的记录才是 “committed 已提交” 的,只有已提交的记录才能被消费者读取。
3. 常见问题
ISR 是什么?
一个 ISR 是一个同步复制 leader 的 follower。
如果 leader 故障了,只有 ISR 有资格竞选 leader。
消费者与分区的对应关系
一个消费者可以对应多个分区,但一个分区一次只能被一个消费者组中的一个消费者使用。
如果一个主题只有一个分区,那么就只能有一个消费者。
Leader Follower 是什么?
leader 处理本分区的所有读写请求,follower 复制 leader。
kafka 如何做消费者的故障转移?
消费者组的一个消费者如果故障了,那么之前分配给这个消费者的分区会被重新分配给组内的其他消费者。
kafka 如何做 broker 的故障转移?
如果一个 broker 故障了,kafka 会将其持有的分区领导权重新分配给其他 broker。
内容翻译整理自:
https://dzone.com/articles/kafka-topic-architecture-replication-failover-and
推荐阅读: