• HDFS的存储策略


    本文介绍hdfs的存储策略

    内容译自:http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html#Get_Storage_Policy

    译注:存储策略是在和经济妥协的一个技术产物。由于存储技术发展的日新月异,也许将来再考虑这种策略不是很有必要了。虽然从逻辑上来说,总是有相似的问题出现。但将来对于绝大部分问题而言,这些问题已经不是问题了。

    1.简介

    归档存储用于减少对存储的压力。具有高密度存,不那么贵的存储的节点,这些接节点的计算能力也一般般,这种节点可以在集群中承当冷存储(冷宫,冷点)。

    可以根据策略要求,数据能从热点移动到冷点。

    为更多的节点添加冷存储,可以提升集群存储。

    这个框架由多种存储和归档存储构成,其中还包含SSD和内存。

    用户可以选择在SSD和内存中存储数据,以便提升性能。

    译注:原文说了那么多,有用的就是两点:存储、性能。 这种策略在很多其它系统都是透明的,也不需要它们自己管理。例如rdbms可以不它们的数据存储的任意地方,不需要特别设定策略。

    hdfs之所以要这么做,是因为hdfs的应用现在变得更加多样,有的人期望提供类似即席查询的能力,而有的人仅仅要求偶尔计算一下。

    2.存储类型和存储策略

    译注:原文的一段内容没有特别含义,稍微啰嗦,所以摘其精要。

    存储类型

    • DISK-普通磁盘,存储
    • SSD -SSD盘
    • RAM_DISK 内存盘
    • ARCHIVE -归档/压缩,不是实际的磁盘类型,而是数据被压缩存储。

    存储策略

    存储策略允许不同的文件存储在不同的存储类型上。

    目前有以下策略:

    • Hot - 存储和计算都热。    如果是热快,那么复制的目标也是DISK(普通的磁盘)。
    • Cold -用于有限计算的存储。 数据不再使用,或者需要归档的数据被移动到冷存储。如果数据块是冷的,则复制使用ARCHIVE.
    • Warm -半冷半热。warm块的复制内容,部分放置在DISK,其它的在ARCHIVE.
    • All_SSD - 所有数据存储在SSD.
    • One_SSD - 一个复制在SSD,其它的在DISK.
    • Lazy_Persist -只针对只有一个复制的数据块,它们被放在RAM_DISK,之后会被写入DISK。

    一个存储策略,包含以下部分

    1. Policy ID --策略ID
    2. Policy name  --策略名称
    3. A list of storage types for block placement  --块存放的有关存储类型(可以多个)
    4. A list of fallback storage types for file creation--如果创建失败的替代存储类型(可以多个)
    5. A list of fallback storage types for replication--如果复制失败的替代存储类型(可以多个)

    当有足够空间的时候,块复制使用下表中第三列所列出的存储类型。

    如果第三列的空间不够,则考虑用第四列的(创建的时候)或者第五列的(复制的时候)

    Policy IDPolicy NameBlock Placement (n  replicas)Fallback storages for creationFallback storages for replication
    15 Lazy_Persist RAM_DISK: 1, DISK: n-1 DISK DISK
    12 All_SSD SSD: n DISK DISK
    10 One_SSD SSD: 1, DISK: n-1 SSD, DISK SSD, DISK
    7 Hot (default) DISK: n <none> ARCHIVE
    5 Warm DISK: 1, ARCHIVE: n-1 ARCHIVE, DISK ARCHIVE, DISK
    2 Cold ARCHIVE: n <none> <none>

    注意LAZY_PERSIST策略只用于复制一个块(换言之,没有数据冗余)。

    译注:原文的意思是如果数据一部分在RAM_DISK,一部分在磁盘上,不会提高性能,所以只能用于一个复制的情况。本人不太理解。不过原文这么说,就先这么记着吧。

    存储策略的解析

    当创建文件/目录的时候,并未为它们设定了存储策略。 但可以通过hdfs storagepolicies命令来管理。

    文件/路径的存储策略按照如下规则解析:

    1. 如果有设定特定的策略,那么就是那个策略

    2. 如果没有设定,就返回上级目录的存储策略。如果是没有策略的根目录,那么返回默认的存储策略(hot-编号7的)。

    配置

    • dfs.storage.policy.enabled -  启用/关闭存储策略特性。默认是true(开启)
    • dfs.datanode.data.dir -  数据路径,多个以逗号分隔,但必须在前面带上存储类型。例如:

      1. A datanode storage location /grid/dn/disk0 on DISK should be configured with [DISK]file:///grid/dn/disk0
      2. A datanode storage location /grid/dn/ssd0 on SSD can should configured with [SSD]file:///grid/dn/ssd0
      3. A datanode storage location /grid/dn/archive0 on ARCHIVE should be configured with [ARCHIVE]file:///grid/dn/archive0
      4. A datanode storage location /grid/dn/ram0 on RAM_DISK should be configured with [RAM_DISK]file:///grid/dn/ram0

      如果没有设定存储类型,那么使用默认的([DISK])

          译注:例如DN1有两个存储类型  [DISK]file:///grid/dn/disk0,[SSD]file:///grid/dn/ssd0   

                     每个节点可以具体配置,不需要都一样。当然如果都一样,可以稍微提升系统的性能。

    3.MOVER-一个新的数据迁移工具

    这个工具用户归档数据,它类似于Balancer(移动数据方面)。MOVER定期扫描HDFS文件,检查文件的存放是否符合它自身的存储策略。如果数据块不符合自己的策略,它会把数据移动到该去的地方。

    语法

    hdfs mover [-p <files/dirs> | -f <local file name>]

    -p  指定要迁移的文件/目录,多个以空格分隔

    -f   指定本地一个文件路径,该文件列出了需要迁移的文件或者目录(一个一行)

    如果不指定参数,那么就移动根目录。

    4.存储策略命令

    列出所有存储策略

    hdfs storagepolicies -listPolicies

    设置存储策略

    hdfs storagepolicies -setStoragePolicy -path <path> -policy <policy>

    例如  hdfs storagepolicies -setStoragePolicy -path /tmp -policy ALL_SSD

    取消存储策略

    hdfs storagepolicies -unsetStoragePolicy -path <path>

    之后该目录或者文件,以其上级的目录为准,如果是根目录,那么就是HOT

    获取存取策略

    hdfs storagepolicies -getStoragePolicy -path <path>

    ---

    译注:如果你的项目很有钱,不放可以把一些不是太大的数据放在ALL_SSD中,例如个数据节点上放个10t。甚至如果有更多钱,可以组成ssd raid。

  • 相关阅读:
    Qt5:"Designer: An error has occurred while reading the UI file at line 1, column 0: Premature end of document."错误
    Qt5 : 在使用 QtDesigner 的时候编译通过窗口不显示
    Qt5:遇到 tr() 函数 未定义的错误
    Qt5 : 使用QtDesigner的时候查看代码正确 但是编译的时候总出现 为定义的错误
    第四章:粘住位
    socketread方法
    AT24C02的操作说明
    MSP430常用程序架构
    MSP430F149的存储器结构及FLASH读写
    LCD1602的MSP430驱动函数
  • 原文地址:https://www.cnblogs.com/lzfhope/p/7068909.html
Copyright © 2020-2023  润新知