Hadoop-HDFS
1、介绍
HDFS是Hadoop应用程序使用的主要分布式存储。HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。《 HDFS体系结构指南》详细介绍了HDFS。本用户指南主要处理用户和管理员与HDFS群集的交互。HDFS体系结构图描述了NameNode,DataNode和客户端之间的基本交互。客户端与NameNode联系以获取文件元数据或文件修改,并直接与DataNode执行实际的文件I / O。
以下是许多用户可能会感兴趣的一些重要功能。
- Hadoop(包括HDFS)非常适合使用商品硬件进行分布式存储和分布式处理。它具有容错性,可伸缩性,并且扩展极其简单。MapReduce以其简单性和对大型分布式应用程序的适用性而闻名,它是Hadoop不可或缺的一部分。
- HDFS高度可配置,默认配置非常适合许多安装。在大多数情况下,仅需要针对非常大的集群调整配置。
- Hadoop用Java编写,并且在所有主要平台上均受支持。
- Hadoop支持类外壳命令直接与HDFS进行交互。
- NameNode和Datanodes内置了Web服务器,可轻松检查群集的当前状态。
- HDFS会定期实施新功能和改进。以下是HDFS中有用功能的子集:
- 文件权限和身份验证。
- 机架感知:在计划任务和分配存储时考虑节点的物理位置。
- 安全模式:一种维护的管理模式。
fsck
:用于诊断文件系统运行状况,查找丢失的文件或块的实用程序。fetchdt
:一种实用程序,用于获取PrincipledToken
并将其存储在本地系统上的文件中。- 平衡器:当数据在数据节点之间分布不均时,用于平衡集群的工具。
- 升级和回滚:软件升级后,如果出现意外问题,可以在升级之前回滚到HDFS的状态。
- 次要NameNode:执行命名空间的定期检查点,并有助于将包含HDFS修改日志的文件的大小保持在NameNode的某些限制内。
- Checkpoint节点:执行命名空间的定期检查点,并有助于最小化存储在NameNode上的日志的大小,该日志包含对HDFS的更改。替换先前由次要NameNode填充的角色,尽管尚未进行战斗加固。只要没有在系统中注册任何备份节点,NameNode即可同时允许多个Checkpoint节点。
- 备份节点:Checkpoint节点的扩展。除了检查点之外,它还从NameNode接收编辑流,并维护其自己的命名空间在内存中的副本,该副本始终与活动的NameNode命名空间状态保持同步。一次只能向NameNode注册一个备份节点。