• 1)HDFS分布式文件系统 2)HDFS核心设计 3 )HDFS体系结构


    一、HDFS简介

    1.HDFS:Hadoop distributed file system

      一个分布式文件系统

      基于流数据模式访问和处理超大文件的需要而开发

      适合应用在大规模数据集上

    2. 优点

      处理超大文件

        能用来存储管理PB级的数据

      处理非结构化数据

      流式的访问数据

        一次写入、多次读写

      运行于廉价的商用机器集群上

        可运行在低廉的商用硬件集群上

        故障时能继续运行且不让用户观察到明显的中断

    3. 局限性

      不适合处理低延迟数据访问

        HDFS是为了处理大型数据集分析任务的,主要是为了达到高的数据吞吐量而设计的

        对于低延迟时的访问需求,HBASE是更好的选择

      无法高效存储大量的小文件

        小文件会给Hadoop的扩展性和性能带来严重问题

        利用sequencefile、mapfile等方式归档小文件

      不支持多用户写入及任意修改文件

        只有一个写入着,只能执行追加操作

        不支持多用户对同一文件的写操作,以及在文件任意位置进行修改

    4. HDFS特性

      高容错,可扩展性以及可配置性强

      跨平台

      shell命令接口

      机架感应功能

      负载均衡

      web界面

    5. HDFS目标

      检测和快速恢复硬件故障

        故障的检测和快速自动恢复是HDFS的一个核心目标

      流式数据访问

        设计成适合进行批量处理

        重视数据吞吐量,而不是数据访问的反应速度

      大规模数据集

        支持大文件存储

        一个单一的HDFS实例能支撑数以千万计的文件

      简化一致性模型

        对文件实行一次性写入,多次读取的访问模式

    6. HDFS目标

      移动计算代价比移动数据代价低

      可移植性

      通信协议

    未完待续。。。

    不忘初心,方得始终! 坚持!坚持!坚持!!
  • 相关阅读:
    @support浏览器兼容判断 以及 @media媒体查询
    关于BFC的总结
    JS—二维数组的创建
    JS—操作符优先级
    JS—事件对象
    JS—事件
    DOM—addEventListener() & removeEventListener()
    高级算法——动态规划(斐波那契函数实例)
    对象字面量的使用
    小程序日历 IOS真机预览问题
  • 原文地址:https://www.cnblogs.com/sumboy/p/9065879.html
Copyright © 2020-2023  润新知