• hadoop-3.0新特性


    1.纠删码将数据存储空间节省50%

    hadoop-3.0之前,HDFS存储方式为每一份数据存储3份,这也使得存储利用率仅为1/3,

    hadoop-3.0引入纠删码技术(EC技术),实现1份数据+0.5份冗余校验数据存储方式

    2.Shell脚本重写 

    (1)增加了参数冲突检测,避免重复定义和冗余参数

    (2)CLASSPATH, JAVA_LIBRARY_PATH, and LD_LIBRARY_PATH等参数的去重,缩短环境变量

    (3)shell脚本重构,将更多的代码加入function中,提供重载,删除重复代码,便于测试

    (4)脚本清理和简化

    (5)尽可能与当前系统保持兼容

    (6)提供一份Hadoop环境变量列表

    3.支持多个NameNode

    但是Active的NameNode始终只有1个,余下的都是Standby。 Standby NN会不断与JN同步,保证自己获取最新的editlog,并将edits同步到自己维护的image中去,这样便可以实现热备,在发生failover的时候,立马切换成active状态,对外提供服务。同时,JN只允许一个active状态的NN写入

    4.Yarn

    Yarn Timeline Service V2提供一个通用的应用程序共享信息和共享存储模块。可以将metrics等信息保存。可以实现分布式writer实例和一个可伸缩的存储模块。同时,v2版本在稳定性和性能上面也做出了提升,原先版本不适用于大集群,v2版本使用hbase取代了原先的leveldb作为后台的存储工具。

    此外

    5.hadoop-3.0要求JDK版本不低于1.8,对之前的Java版本不再提供支持

    6.部分服务默认端口修改,不再绑定到Linux临时端口 (HDFS-9427,HADOOP-12811)

    Namenode ports: 50470 --> 9871, 50070--> 9870, 8020 --> 9820

    Secondary NN ports: 50091 --> 9869,50090 --> 9868

    Datanode ports: 50020 --> 9867, 50010--> 9866, 50475 --> 9865, 50075 --> 9864

    Kms server ports: 16000 --> 9600 (原先的16000与HMaster端口冲突)

    7. 支持MicrosoftAzure Data Lake文件系统

    8.Disk Balancer

    支持单个Datanode上,不同硬盘间的数据balancer。老版本的hadoop只支持在Datanode之间进行balancer,每个节点内部不同硬盘之间若发生了数据不平衡,则没有一个好的办法进行处理。现在可以通过hdfs diskbalancer命令,进行节点内部硬盘间的数据平衡。该功能默认是关闭的,需要手动设置参数dfs.disk.balancer.enabled为true来开启。

     

  • 相关阅读:
    Winform中让回车键完成TAB键的功能
    ASP.NET跨页传值方法汇总
    SQL SERVER中使用Unicode字符的注意问题
    如何为Oracle配置多个监听器
    如何实现上一条、下一条的功能
    "文件中的备份集是由BACKUP DATABASE...FILE=创建的,无法用于此还原操作"的解决办法
    [psp][lumines]dat数据包解包程序
    meteos@pc, the remake制作中...
    最近在仿照Lumines写
    建立huffman树,当然用堆排序
  • 原文地址:https://www.cnblogs.com/corolcorona/p/6823842.html
Copyright © 2020-2023  润新知