Hadoop HDFS概述

Hadoop HDFS概述
HDFS 概述

产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

HDFS 定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS 优缺点

优点
- 高容错性
数据自动保存多个副本。它通过增加副本的形式，提高容错性。

某一个副本丢失以后，它可以自动恢复。
- 适合处理大数据
数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；

文件规模：能够处理百万规模以上的文件数量，数量相当之大。
- 构建在廉价机器上
缺点
- 不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
- 无法高效的对大量小文件进行存储。
小文件过多，会过多占用 Namenode 的内存，并浪费block。因为HDFS的每个文件、目录、数据块占用150B空间大小。
- 不支持并发写入、文件随机修改。
HDFS 组成架构

NameNode：就是一个Master。主要负责：
- 管理HDFS的名称空间
- 配置副本策略
- 管理数据块（Block）映射信息
- 处理客户端读写请求
DataNode：就是Slave。主要负责：
- 存储实际的数据块
- 执行数据块的读/写操作
Client：就是客户端，例如（Java代码，hdfs dfs）。主要负责：
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传
- 与NameNode交互，获取文件的位置信息
- 与DataNode交互，读取或者写入数据
- Client提供一些命令来管理HDFS，比如NameNode格式化
- Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作
Secondary NameNode：NameNode 辅助节点，主要负责：
- 合并 fsimage 和 edit logs
NameNode 为了效率高，所以将目录结构相关数据放在内存中。但是因为内存容易丢失，所以内存中的数据需要持久化。那么谁来做这件事情？

NameNode不能完成这件事情吗，当然可以的。如果这么设计会导致 NameNode 节点任务繁重执行效率低下，因此诞生了- Secondary NameNode

HDFS 文件块大小

在 Hadoop2.x 版本中是 128M，老版本中是 64M。可通过配置文件修改。
```
<property>
  <name>dfs.blocksize</name>
  <value>134217728</value>
  <description>
      The default block size for new files, in bytes.
      You can use the following suffix (case insensitive):
      k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),
      Or provide complete size in bytes (such as 134217728 for 128 MB).
  </description>
</property>
```
参考资料
- Hadoop海量数据处理：技术详解与项目实战（第2版）
- 尚硅谷大数据
相关阅读:
mapreduce 的过程
 bootstrap当中，实现一些常用的元素居中
 如何理解人工智能、机器学习和深度学习三者的关系
 MapReduce的局限性
 MapReduce的计算资源划分
 Java中的堆和栈的区别
 java面试01-网络知识
 01Java经典问题
 06数据库复习03
05数据库复习02
原文地址：https://www.cnblogs.com/zhanghuizong/p/12650148.html

HDFS 概述

产生背景

HDFS 定义

HDFS 优缺点

优点

缺点

HDFS 组成架构

HDFS 文件块大小

参考资料