HDFS文件块大小（重点）

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数(dfs.blocksize）来规定，默认大小在Hadoop2.x版本中是128M，老版本中是64M。

那么，问题来了，为什么一个block的大小就是128M呢？

默认为128M的原因，基于最佳传输损耗理论！

不论对磁盘的文件进行读还是写，都需要先进行寻址！

最佳传输损耗理论：在一次传输中，寻址时间占用总传输时间的1%时，本次传输的损耗最小，为最佳性价比传输！
目前硬件的发展条件，普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!

10ms / 1% = 1s
1s * 100M/S=100M

块在传输时，每64K还需要校验一次，因此块大小，必须为2的n次方，最接近100M的就是128M！

如果公司使用的是固态硬盘，写的速度是300M/S，将块大小调整到 256M
如果公司使用的是固态硬盘，写的速度是500M/S，将块大小调整到 512M

为什么块的大小不能设置太小，也不能设置太大？

不能太大：
当前有文件a, 1G
128M一块 1G存8块，取第一块
1G一块 1G存1块，取第一块
只需要读取a文件0-128M部分的内容
①在一些分块读取的场景，不够灵活，会带来额外的网络消耗
②在上传文件时，一旦发生故障，会造成资源的浪费

不能太小：
文件a,128M
1M一块： 128个块，生成128个块的映射信息
128M一块， 1个块，一个块的映射信息
①块太小，同样大小的文件，会占用过多的NN的元数据空间
②块太小，在进行读写操作时，会消耗额外的寻址时间

相关阅读:
【转】CTF-Born2root's-WriteUP
Win10 64位+VS2015+Opencv3.3.0安装配置
C++ bitset 用法
未来的一个要参加蓝桥杯，在这里记录下笔记
一些漏洞测试利用脚本
Linux下抓取登陆用户密码神器mimipenguin
免费在线验证码接收平台
kali linux 安装 Mysql Can't read from messagefile 报错解决方案
FPGA实现UHS的一些资料
CYPRESS USB芯片win10驱动

原文地址：https://www.cnblogs.com/sunbr/p/13262242.html