若是在虚拟机安装最好先进行下面的安装
1.1修改各个虚拟机主机名 vi /etc/sysconfig/network 1.2修改主机名和IP的映射关系 vi /etc/hosts 1.3关闭防火墙 #查看防火墙状态 service iptables status #关闭防火墙 service iptables stop #查看防火墙开机启动状态 chkconfig iptables --list #关闭防火墙开机启动 chkconfig iptables off 1.4.配置ssh免登陆 #生成ssh免登陆密钥 ssh-keygen -t rsa (四个回车) 执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥) 将公钥拷贝到要免密登陆的目标机器上 ssh-copy-id node-2 1.5 同步集群时间 常用的手动进行时间的同步 date -s "2017-03-03 03:03:03" 或者网络同步: yum install ntpdate ntpdate cn.pool.ntp.org
1、 jdk安装
1.1上传jdk
rz jdk-8u65-linux-x64.tar.gz
1.2解压jdk
tar -zxvf jdk-8u65-linux-x64.tar.gz -C /root/apps
1.3将java添加到环境变量中
vim /etc/profile
#在文件最后添加
export JAVA_HOME=/root/apps/jdk1.8.0_65
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#刷新配置
source /etc/profile
2、 zookeeper安装
Zookeeeper集群搭建: 安装前需要安装好jdk ##下载安装包、解压 tar -zxvf zookeeper-3.4.5.tar.gz mv zookeeper-3.4.5 zookeeper ##修改环境变量(注意:3台zookeeper都需要修改) vi /etc/profile export ZOOKEEPER_HOME=/home/hadoop/zookeeper export PATH=$PATH:$ZOOKEEPER_HOME/bin source /etc/profile ##修改Zookeeper配置文件 cd zookeeper/conf cp zoo_sample.cfg zoo.cfg vi zoo.cfg 添加内容: dataDir=/root/apps/zookeeper/zkdata server.1=mini1:2888:3888 ## (心跳端口、选举端口) server.2=mini2:2888:3888 server.3=mini3:2888:3888 创建文件夹: cd /home/hadoop/zookeeper/ mkdir zkdata 在data文件夹下新建myid文件,myid的文件内容为: cd zkdata echo 1 > myid ##分发安装包到其他机器 scp -r /root/apps root@mini2:/root/ scp -r /root/apps root@mini3:/root/ ##修改其他机器的配置文件 修改myid文件 到mini2上:修改myid为:2 到mini3上:修改myid为:3 ##启动(每台机器) zkServer.sh start 或者编写一个脚本来批量启动所有机器: for host in "mini1 mini2 mini3" do ssh $host "source/etc/profile;/root/apps/zookeeper/bin/zkServer.sh start" ##查看集群状态 jps(查看进程) zkServer.sh status(查看集群状态,主从信息) 如果启动不成功,可以观察zookeeper.out日志,查看错误信息进行排查 配置文件中参数说明: tickTime这个时间是作为zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是说每个tickTime时间就会发送一个心跳。 initLimit这个配置项是用来配置zookeeper接受客户端(这里所说的客户端不是用户连接zookeeper服务器的客户端,而是zookeeper服务器集群中连接到leader的follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。 当已经超过10个心跳的时间(也就是tickTime)长度后 zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 10*2000=20秒。 syncLimit这个配置项标识leader与follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度,总的时间长度就是5*2000=10秒。 dataDir顾名思义就是zookeeper保存数据的目录,默认情况下zookeeper将写数据的日志文件也保存在这个目录里; clientPort这个端口就是客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口接受客户端的访问请求; server.A=B:C:D中的A是一个数字,表示这个是第几号服务器,B是这个服务器的IP地址,C第一个端口用来集群成员的信息交换,表示这个服务器与集群中的leader服务器交换信息的端口,D是在leader挂掉时专门用来进行选举leader所用的端口。
3、kafka安装
1、下载安装包 下载地址:http://kafka.apache.org/downloads.html 在linux中使用wget命令下载安装包 wget http://mirrors.shuosc.org/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz 2、解压安装包 tar -zxvf kafka_2.11-1.0.0.tgz -C /export/servers/ cd /export/servers/ mv kafka_2.11-1.0.0 kafka 3、修改配置文件 cp /export/servers/kafka/config/server.properties /export/servers/kafka/config/server.properties.bak vi /export/servers/kafka/config/server.properties 输入以下内容: #broker的全局唯一编号,不能重复 broker.id=0 #用来监听链接的端口,producer或consumer将在此端口建立连接 port=9092 #处理网络请求的线程数量 num.network.threads=3 #用来处理磁盘IO的线程数量 num.io.threads=8 #发送套接字的缓冲区大小 socket.send.buffer.bytes=102400 #接受套接字的缓冲区大小 socket.receive.buffer.bytes=102400 #请求套接字的缓冲区大小 socket.request.max.bytes=104857600 #kafka运行日志存放的路径 log.dirs=/export/servers/logs/kafka #topic在当前broker上的分片个数 num.partitions=2 #用来恢复和清理data下数据的线程数量 num.recovery.threads.per.data.dir=1 #segment文件保留的最长时间,超时将被删除 log.retention.hours=168 #滚动生成新的segment文件的最大时间 log.roll.hours=168 #日志文件中每个segment的大小,默认为1G log.segment.bytes=1073741824 #周期性检查文件大小的时间 log.retention.check.interval.ms=300000 #日志清理是否打开 log.cleaner.enable=true #broker需要使用zookeeper保存meta数据 zookeeper.connect=192.168.52.106:2181,192.168.52.107:2181,192.168.52.108:2181 #zookeeper链接超时时间 zookeeper.connection.timeout.ms=6000 #partion buffer中,消息的条数达到阈值,将触发flush到磁盘 log.flush.interval.messages=10000 #消息buffer的时间,达到阈值,将触发flush到磁盘 log.flush.interval.ms=3000 #删除topic需要server.properties中设置delete.topic.enable=true否则只是标记删除 delete.topic.enable=true #此处的host.name为本机IP(重要),如果不改,则客户端会抛出:Producer connection to localhost:9092 unsuccessful 错误! host.name=kafka01 4、分发安装包 scp -r /export/servers/kafka kafka02:/export/servers 然后分别在各机器上创建软连 cd /export/servers/ scp -r /export/servers/kafka kafka03:/export/servers 然后分别在各机器上创建软连 cd /export/servers/ 5、再次修改配置文件 修改分发过去的kafka的配置文件里面的id 6、启动集群 7、kafka常用操作命令 查看当前服务器中的所有topic bin/kafka-topics.sh --list --zookeeper zk01:2181 创建topic bin/kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 1 --topic test 删除topic bin/kafka-topics.sh --delete --zookeeper zk01:2181 --topic test 需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。 通过shell命令发送消息 bin/kafka-console-producer.sh --broker-list kafka01:9092 --topic test 通过shell消费消息 bin/kafka-console-consumer.sh --zookeeper zk01:2181 --from-beginning --topic test 查看消费位置 bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zookeeper zk01:2181 --group testGroup 查看某个Topic的详情 bin/kafka-topics.sh --topic test --describe --zookeeper zk01:2181 对分区数进行修改 bin/kafka-topics.sh --zookeeper zk01 --alter --partitions 2 --topic test