• HDFS核心概念与架构


    HDFS简介

    HDFS是Hadoop项目的核心子项目,在大数据开发中通过分布式计算对海量数据进行存储与管理,它基于流数据模式访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用处理带来了很多便利。
    HDFS的特点:
     支持大型数据集
     遵循简单一致性模型
     运行于廉价的商用服务器上
     不适合低延迟数据访问
     存储大量小文件的效率不高
     不支持多用户写入、不支持修改文件

    HDFS数据存储架构

    一个HDFS集群由一个元数据节点(NameNode)和一些数据节点(DataNode)组成,NameNode是一个用来管理文件命名空间的主服务器,DataNode则用来管理对应节点的数据存储。

    一个HDFS集群由一个元数据节点(NameNode)和一些数据节点(DataNode)组成,NameNode是一个用来管理文件命名空间的主服务器,DataNode则用来管理对应节点的数据存储。
    默认将一个文件块复制三份分别存放。


    HDFS数据读写特点:一次写入,多次读取。

    HDFS主要组件

    数据块(Block):HDFS中最基本的存储单位,默认64M(128M)。
    NameNode和DataNode:NameNode存储文件元数据信息,DataNode存储实际文件数据。 从元数据节点(SecondaryNameNode):定期将NameNode中的元数据进行合并。它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间。

    BackupNode:对NameNode中的元数据进行备份。
    JournalNode:两个NameNode为了同步数据,会通过一组JournalNode的独立进程进行相互通信。

    HDFS数据读写

    客户端从HDFS中读取数据的过程如下图:

    客户端从HDFS中写入数据的过程如下图:

  • 相关阅读:
    emulate sh
    postmaster.c 中的 ListenAddresses
    PostgreSQL的postmaster的fork动作验证
    NotifyMyFrontEnd 函数背后的数据缓冲区(三)
    对${ZSH_VERSION+set}的验证
    微软正准备一个简易的Rootkit清除方案 助用户打补丁 狼人:
    创新与安全:云计算的两只跷跷板 狼人:
    苹果禁止iPhone黑客访问App Store应用商店 狼人:
    春节不回家 单身留守族“拼饭”“拼玩” 狼人:
    僵尸侵入全球 袭击者或为东欧黑帮 狼人:
  • 原文地址:https://www.cnblogs.com/dreamboy/p/12512722.html
Copyright © 2020-2023  润新知