NameNode作用
负责管理文件系统的命名空间,包括了命名空间镜像文件(fsimage,位于内存与磁盘中)和编辑日志文件(edits),以及记录每个文件中各个块所在的数据节点信息。
NameNode启动过程
NameNode启动:读取fsimage生成内存中元数据镜像
DataNode启动:向NameNode注册,向NameNode发送BlockReport。
NameNode高可用
QJM
Failover controller(ZooKeeper)
分片规则
long splitSize = computeSplitSize(goalSize, minSize, blockSize);
computeSplitSize:
Math.max(minSize, Math.min(goalSize, blockSize));
其中,goalSize为“InputFile大小”/“我们在配置文件中定义的mapred.map.tasks”值,minsize为mapred.min.split.size,blockSize为64,所以,这个算式为取分片大小不大于block,并且不小于在mapred.min.split.size配置中定义的最小Size。
Hive
分区
桶:map连接
存储格式
默认存储格式:分隔的文本