• Hadoop笔记


    NameNode作用

    负责管理文件系统的命名空间,包括了命名空间镜像文件(fsimage,位于内存与磁盘中)和编辑日志文件(edits),以及记录每个文件中各个块所在的数据节点信息。

    NameNode启动过程

    NameNode启动:读取fsimage生成内存中元数据镜像

    DataNode启动:向NameNode注册,向NameNode发送BlockReport。

    NameNode高可用

    QJM

    Failover controller(ZooKeeper)

    分片规则

    long splitSize = computeSplitSize(goalSize, minSize, blockSize);

    computeSplitSize:

    Math.max(minSize, Math.min(goalSize, blockSize));

    其中,goalSize为“InputFile大小”/“我们在配置文件中定义的mapred.map.tasks”值,minsize为mapred.min.split.size,blockSize为64,所以,这个算式为取分片大小不大于block,并且不小于在mapred.min.split.size配置中定义的最小Size。

    Hive

    分区

    桶:map连接

    存储格式

    默认存储格式:分隔的文本

  • 相关阅读:
    使用gulp搭建一个传统的多页面前端项目的开发环境
    抓包工具使用
    selectors 模块
    I/O模型
    协程
    进程池
    进程的同步
    进程间通讯的三种方式
    多进程调用
    生产者消费者模型
  • 原文地址:https://www.cnblogs.com/cheungchein/p/8762433.html
Copyright © 2020-2023  润新知