1、Kafka是一种高吞吐量的分布式发布订阅消息系统;
应用场景:
(1) kafka可以作为"网站活性跟踪"的最佳工具;可以将网页/用户操作等信息发送到kafka中.并实时监控,或者离线统计分析等;
(2) Kafka通常被用于可操作的监控数据。这包括从分布式应用程序来的聚合统计用来生产集中的运营数据提要。
2、Impala是实时交互SQL大数据查询工具;
3、jps进程对应的组件服务名称:
(1)QuorumPeerMain:zookeeper服务;
(2)HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion服务器群和HBase Master服务器构成:
HMaster//必须的,表明该hbase是Master QuorumPeerMain//必须单独配置的Zookeeper集群,如果是内置的则为HQuorumPeer HRegionServer//不是必须的,因为我们也将该Master设置为Region NameNode//必须,任务调度器 SencondNameNode//必须,任务调度器 HRegion可能的进程: QuorumPeerMain//必须单独配置的Zookeeper集群,如果是内置的则为HQuorumPeer DataNode//必须,数据存储相关 HRegionServer//必须,表明是hbase存储节点; ThriftServer:Impala服务
4、cdh集群配置规则:
1)HDFS、YARN、Hbase三个组件不能装同一台机器;
2)zookeeper装奇数台;
3)管理节点3-5台;
4)群集设置:所有目录/var变成/data
5)Hbase默认端口60000,如果ssh端口设置为60000,两者会有冲突;
5、通过CM搭建CDH无法启动CM的原因:
(1)搭建CDH集群的时候相应版本号匹配规则,jdk1.8.9_141-cloudera配对cm5.13.0/cdh5.13.0;
(2)当CM启动报错的时候:
1)JDK版本号和CM版本号匹配不上,在/usr/java路径下上传jdk1.8.0_141-cloudera;
2)数据库没有日志生成,在/etc/cloudera-scm-server路径下添加log4j.properties;
6、CDH远程初始化数据库命令:
/usr/share/cmf/schema/scm_prepare_database.sh mysql -h 10.10.72.92 -p3306 cm cm password
7、hadoop默认安装路径:
/data/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29