一、kafka优点
- 高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。
- 可扩展性:kafka集群支持热扩展
- 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
- 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
- 高并发:支持数千个客户端同时读写
二、kafka的名词解释
- Broker:Kafka节点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。
- Topic:一类消息,消息存放的目录即主题,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。
- massage: Kafka中最基本的传递对象。
- Partition:topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。
- Segment:partition物理上由多个segment组成,每个Segment存着message信息。
- Producer : 生产者,生产message发送到topic。
- Consumer : 消费者,订阅topic并消费message, consumer作为一个线程来消费。
- Consumer Group:消费者组,一个Consumer Group包含多个consumer。
- Offset:偏移量,理解为消息partition中的索引即可
三、kafka存储策略
- kafka以topic来进行消息管理,每个topic包含多个partition,每个partition对应一个逻辑log,有多个segment组成。
- 每个segment中存储多条消息(见下图),消息id由其逻辑位置决定,即从消息id可直接定位到消息的存储位置,避免id到位置的额外映射。
- 每个part在内存中对应一个index,记录每个segment中的第一条消息偏移。
- 发布者发到某个topic的消息会被均匀的分布到多个partition上(或根据用户指定的路由规则进行分布),broker收到发布消息往对应partition的最后一个segment上添加该消息,当某个segment上的消息条数达到配置值或消息发布时间超过阈值时,segment上的消息会被flush到磁盘,只有flush到磁盘上的消息订阅者才能订阅到,segment达到一定的大小后将不会再往该segment写数据,broker会创建新的segment。
四、kafka集群搭建
- zookeeper集群搭建
- kafak下载
- 解压、复制
tar -zvxf kafka_2.11-2.3.0.tgz
mv kafka_2.11-2.3.0/ kafka1/
cp -r kafka1/ kafka2/
cp -r kafka1/ kafka3/
4.kakfa配置参数详解
参数 | 说明 |
---|---|
delete.topic.enable=true | 是否允许删除topic,默认false不能手动删除 |
broker.id=0 | 当前机器在集群中的唯一标识,和zookeeper的myid性质一样 |
listeners = PLAINTEXT://192.168.100.151:9092 | 当前kafka服务侦听的地址和端口,端口默认是9092 |
num.network.threads=3 | 这个是borker进行网络处理的线程数 |
num.io.threads=8 | 这个是borker进行I/O处理的线程数 |
socket.send.buffer.bytes=102400 | 发送缓冲区buffer大小,数据不是一下子就发送的,先会存储到缓冲区到达一定的大小后在发送,能提高性能 |
socket.receive.buffer.bytes=102400 | kafka接收缓冲区大小,当数据到达一定大小后在序列化到磁盘 |
socket.request.max.bytes=104857600 | 这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数,这个值不能超过java的堆栈大小 |
log.dirs= | 消息日志存放的路径 |
num.partitions=1 | 默认的分区数,一个topic默认1个分区数 |
num.recovery.threads.per.data.dir=1 | 每个数据目录用来日志恢复的线程数目 |
log.retention.hours=168 | 默认消息的最大持久化时间,168小时,7天 |
log.segment.bytes=1073741824 | 这个参数是:因为kafka的消息是以追加的形式落地到文件,当超过这个值的时候,kafka会新起一个文件 |
log.retention.check.interval.ms=300000 | 每隔300000毫秒去检查上面配置的log失效时间 |
log.cleaner.enable=false | 是否启用log压缩,一般不用启用,启用的话可以提高性能 |
zookeeper.connect=node1:2181,node2:2181,node3:2181 | 设置zookeeper的连接端口 |
broker.id=0 | 当前机器在集群中的唯一标识,和zookeeper的myid性质一样 |
zookeeper.connection.timeout.ms=6000 | 设置zookeeper的连接超时时间 |
5.修改kafka的配置文件
节点1
broker.id=0
listeners=PLAINTEXT://192.168.100.151:9092
log.dirs=/yangk/kafka/kafka1/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183
节点2
broker.id=1
listeners=PLAINTEXT://192.168.100.151:9093
log.dirs=/yangk/kafka/kafka2/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183
节点3
broker.id=2
listeners=PLAINTEXT://192.168.100.151:9094
log.dirs=/yangk/kafka/kafka3/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183
6.启动kafka
先启动zookeeper集群。然后到每个kafka的目录下启动kafka
./bin/kafka-server-start.sh -daemon config/server.properties