• Hadoop 文件的数量怎么比block的数量多?


    Total files:    23
    Total symlinks:        0
    Total blocks (validated):    22 (avg. block size 117723 B)
    Minimally replicated blocks:    22 (100.0 %)
    Over-replicated blocks:    0 (0.0 %)
    Under-replicated blocks:    0 (0.0 %)
    Mis-replicated blocks:        0 (0.0 %)
    Default replication factor:    2
    Average block replication:    2.0
    Corrupt blocks:        0
    Missing replicas:        0 (0.0 %)
    Number of data-nodes:        2
    Number of racks:        1
    FSCK ended at Sun Dec 06 13:17:09 CST 2015 in 20 milliseconds

    有一次,同事问我说,文件数怎么比block数目还要多,这正常吗?
    当时查看的情况是文件数一千多万,block的总数不到一千万。
    我当时也没想出原因。现在知道了,并不是我们想的,block的数量应该是文件的数量* 复本数
    这里fsck 给出的数据是这样理解的,block数量不是总的复本数,文件按block大小划分的数量。
    而且我们在执行mapreduce的时候,会生成sucess之类的标识文件,这样的文件是空的,不算block
    所以文件的数量会比block数量多,这是正常的。

  • 相关阅读:
    Java_大数加法
    Java_找出最多的10个单词
    过滤文本敏感词
    JDK(Win10)下载与安装
    Agile PLM_统计物料消耗
    Java_扑克牌顺子
    Java8_stream_集合对象属性的合并
    Apache Maven下载与安装
    java泛型 无敌
    Java异常处理 无敌
  • 原文地址:https://www.cnblogs.com/huaxiaoyao/p/5023956.html
Copyright © 2020-2023  润新知