• Hadoop笔记 -- 机架感知


    Hadoop机架感知

    1.背景
    Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架的节点上找到数据。为了降低整体的带宽消耗和读取延时,HDFS会尽量让读取程序读取离它最近的副本。如果在读取程序的同一个机架上有一个副本,那么就读取该副本。如果一个HDFS集群跨越多个数据中心,那么客户端也将首先读本地数据中心的副本。那么Hadoop是如何确定任意两个节点是位于同一机架,还是跨机架的呢?答案就是机架感知。
    默认情况下,hadoop的机架感知是没有被启用的。所以,在通常情况下,hadoop集群的HDFS在选机器的时候,是随机选择的,也就是说,很有可能在写数据时,hadoop将第一块数据block1写到了rack1上,然后随机的选择下将block2写入到了rack2下,此时两个rack之间产生了数据传输的流量,再接下来,在随机的情况下,又将block3重新又写回了rack1,此时,两个rack之间又产生了一次数据流量。在job处理的数据量非常的大,或者往hadoop推送的数据量非常大的时候,这种情况会造成rack之间的网络流量成倍的上升,成为性能的瓶颈,进而影响作业的性能以至于整个集群的服务
    2.配置

    默认情况下,namenode启动时候日志是这样的:
    INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /default-rack/ 192.168.147.92:50010
    每个IP 对应的机架ID都是 /default-rack ,说明hadoop的机架感知没有被启用。
    要将hadoop机架感知的功能启用,配置非常简单,在 NameNode所在节点的/home/bigdata/apps/hadoop/etc/hadoop的core-site.xml配置文件中配置一个选项:

    topology.script.file.name
    /home/bigdata/apps/hadoop/etc/hadoop/topology.sh

    这个配置选项的value指定为一个可执行程序,通常为一个脚本,该脚本接受一个参数,输出一个值。接受的参数通常为某台datanode机器的ip地址,而输出的值通常为该ip地址对应的datanode所在的rack,例如”/rack1”。Namenode启动时,会判断该配置选项是否为空,如果非空,则表示已经启用机架感知的配置,此时namenode会根据配置寻找该脚本,并在接收到每一个datanode的heartbeat时,将该datanode的ip地址作为参数传给该脚本运行,并将得到的输出作为该datanode所属的机架ID,保存到内存的一个map中.
    至于脚本的编写,就需要将真实的网络拓朴和机架信息了解清楚后,通过该脚本能够将机器的ip地址和机器名正确的映射到相应的机架上去。一个简单的实现如下:

    #!/bin/bash
    HADOOP_CONF=/home/bigdata/apps/hadoop/etc/hadoop
    while [ $# -gt 0 ] ; do
      nodeArg=$1
      exec<${HADOOP_CONF}/topology.data
      result=""
      while read line ; do
        ar=( $line )
        if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]; then
          result="${ar[2]}"
        fi
      done
      shift
      if [ -z "$result" ] ; then
        echo -n "/default-rack"
      else
        echo -n "$result"
      fi
      done
    

    topology.data,格式为:节点(ip或主机名) /交换机xx/机架xx
    192.168.147.91 tbe192168147091 /dc1/rack1
    192.168.147.92 tbe192168147092 /dc1/rack1
    192.168.147.93 tbe192168147093 /dc1/rack2
    192.168.147.94 tbe192168147094 /dc1/rack3
    192.168.147.95 tbe192168147095 /dc1/rack3
    192.168.147.96 tbe192168147096 /dc1/rack3
    需要注意的是,在Namenode上,该文件中的节点必须使用IP,使用主机名无效,而Jobtracker上,该文件中的节点必须使用主机名,使用IP无效,所以,最好ip和主机名都配上。
    这样配置后,namenode启动时候日志是这样的:
    2013-09-23 17:16:27,272 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack3/ 192.168.147.94:50010
    说明hadoop的机架感知已经被启用了。
    查看HADOOP机架信息命令:
    ./hadoop dfsadmin -printTopology
    Rack: /dc1/rack1
    192.168.147.91:50010 (tbe192168147091)
    192.168.147.92:50010 (tbe192168147092)

    Rack: /dc1/rack2
    192.168.147.93:50010 (tbe192168147093)

    Rack: /dc1/rack3
    192.168.147.94:50010 (tbe192168147094)
    192.168.147.95:50010 (tbe192168147095)
    192.168.147.96:50010 (tbe192168147096)
    3.增加数据节点,不重启NameNode

    假设Hadoop集群在192.168.147.68上部署了NameNode和DataNode,启用了机架感知,执行bin/hadoop dfsadmin -printTopology看到的结果:
    Rack: /dc1/rack1
    192.168.147.68:50010 (dbj68)
    现在想增加一个物理位置在rack2的数据节点192.168.147.69到集群中,不重启NameNode。
    首先,修改NameNode节点的topology.data的配置,加入:192.168.147.69 dbj69 /dc1/rack2,保存。
    192.168.147.68 dbj68 /dc1/rack1
    192.168.147.69 dbj69 /dc1/rack2
    然后,sbin/hadoop-daemons.sh start datanode启动数据节点dbj69,任意节点执行bin/hadoop dfsadmin -printTopology 看到的结果:
    Rack: /dc1/rack1
    192.168.147.68:50010 (dbj68)

    Rack: /dc1/rack2
    192.168.147.69:50010 (dbj69)
    说明hadoop已经感知到了新加入的节点dbj69。
    注意:如果不将dbj69的配置加入到topology.data中,执行sbin/hadoop-daemons.sh start datanode启动数据节点dbj69,datanode日志中会有异常发生,导致dbj69启动不成功。

    4.节点间距离计算

    有了机架感知,NameNode就可以画出下图所示的datanode网络拓扑图。D1,R1都是交换机,最底层是datanode。则H1的rackid=/D1/R1/H1,H1的parent是R1,R1的是D1。这些rackid信息可以通过topology.script.file.name配置。有了这些rackid信息就可以计算出任意两台datanode之间的距离,得到最优的存放策略,优化整个集群的网络带宽均衡以及数据最优分配。
    distance(/D1/R1/H1,/D1/R1/H1)=0 相同的datanode
    distance(/D1/R1/H1,/D1/R1/H2)=2 同一rack下的不同datanode
    distance(/D1/R1/H1,/D1/R2/H4)=4 同一IDC下的不同datanode
    distance(/D1/R1/H1,/D2/R3/H7)=6 不同IDC下的datanode

  • 相关阅读:
    自由职业一时爽,一直自由一直爽
    N+6 裁员裁出幸福感的背后
    你真的了解 Cookie 和 Session 吗?
    百亿级企业级 RPC 框架开源了!
    做一个有脑子的程序员
    Java 生态核心知识点整理
    关于第三方支付,看这篇文章就够了!
    程序员该不该主动提加薪?
    我是为何下定决心入行程序员的
    老程序员被新程序员拍在沙滩上?
  • 原文地址:https://www.cnblogs.com/junzifeng/p/11818246.html
Copyright © 2020-2023  润新知