• YARN node labels


    最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求

    但是当任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段。

    网上看了很多发现没有这方面的信息,最后在Apache hadoop官网的官方手册上查到有以下信息

    property Value
    yarn.scheduler.capacity.<queue-path>.default-node-label-expression Value like “hbase”, which means: if applications submitted to the queue without specifying node label in their resource requests, it will use “hbase” as default-node-label-expression. By default, this is empty, so application will get containers from nodes without label.

    从官网上说明来看,如果yarn.scheduler.capacity.<queue-path>.default-node-label-expression设置了value,那么提交到queue中的任务如果没有说明用什么label,则使用这个value所定义的label;如果这个value为空,那么提交到这个队列的任务只能在不含有label的node上执行。此处的value只能是一个label,不能是多个label。

    也就是说yarn node label中的queue只能默认使用一个label,不能多label使用,如果某个queue没有指定label,那么该queue中job只能在没有label的node上执行。

    我的实验环境中所有的nodemanager都设置了yarn node labels,yarn.scheduler.capacity.root.default.default-node-label-expression=' ',所以当我任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段,因为没有不绑定label的节点,所以任务卡在了accepted了。

    下面说下我的实验环境及需求

    我的需求:

    我的capacity-scheduler.xml文件中配置:yarn.scheduler.capacity.root.default.default-node-label-expression=' '

    上图中default queue队列不能在Host1,Host2,Host3上运行,因为Host1,Host2,Host3都有Node-label。

    根据以上需求,我配置文件如下:

    在yarn-site.xml中开启capacity-schedule

    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
      </property>

    配置capacity-scheduler.xml文件

    复制代码
    <configuration>
      <property>
        <name>yarn.scheduler.capacity.root.queues</name>
        <value>default,area0,area1,area2</value>
        <description>
          The queues at the this level (root is the root queue).
        </description>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.default.capacity</name>
        <value>25</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area0.capacity</name>
        <value>25</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area1.capacity</name>
        <value>25</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area2.capacity</name>
        <value>25</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area0.maximum-capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area1.maximum-capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area2.maximum-capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.accessible-node-labels</name>
        <value>*</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area0.accessible-node-labels</name>
        <value>area0</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area1.accessible-node-labels</name>
        <value>area1</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area2.accessible-node-labels</name>
        <value>area2</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.accessible-node-labels.area0.capacity</name>
        <value>33</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.accessible-node-labels.area1.capacity</name>
        <value>33</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.accessible-node-labels.area2.capacity</name>
        <value>34</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area0.accessible-node-labels.area0.capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area1.accessible-node-labels.area1.capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area2.accessible-node-labels.area2.capacity</name>
        <value>100</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.default-node-label-expression</name>
        <value> ,area0,area1,area2</value>
      </property>
     <!--value为空,则root.default队列只能在没有label的node上执行,而我环境环境中不存在没有label的node,所以提交到root.default的任务卡死-->
      <property>
        <name>yarn.scheduler.capacity.root.default.default-node-label-expression</name>
        <value> </value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area0.default-node-label-expression</name>
        <value>area0</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area1.default-node-label-expression</name>
        <value>area1</value>
      </property>
    
      <property>
        <name>yarn.scheduler.capacity.root.area2.default-node-label-expression</name>
        <value>area2</value>
      </property>
    </configuration>
    复制代码

     

     

    添加Yarn Node Labels

    复制代码
    #添加标签
    yarn rmadmin -addToClusterNodeLabels area0,area1,area2
    #节点添加标签
    yarn rmadmin -replaceLabelsOnNode Host1:45454,area0
    yarn rmadmin -replaceLabelsOnNode Host2:45454,area1
    yarn rmadmin -replaceLabelsOnNode Host3:45454,area2
    #查看标签
    yarn node -status Host1:45454
    #也可以通过Yarn管理页面查看Node Label
    复制代码

    配置Yarn Node Labels存储目录,这样不用每次重启服务后重新配置Yarn Node Labels。

    在yarn-site.xml中添加下列信息

    复制代码
    <property>
           <name>yarn.node-labels.enabled</name>
           <value>true</value>
      </property>
      <property>
         <name>yarn.nodemanager.address</name>
         <value>0.0.0.0:45454</value>
      </property>
    
      <property>
         <name>yarn.node-labels.manager-class</name>
         <value>org.apache.hadoop.yarn.server.resourcemanager.nodelabels.RMNodeLabelsManager</value>
      </property>
      <property>
         <name>yarn.node-labels.fs-store.root-dir</name>
         <value>hdfs://Host0:8020/yarn/node-labels</value>
         <description>标签数据在HDFS上的存储位置</description>
      </property>
    复制代码

    在HDFS上创建相应的目录,并修改权限,我权限设置成了777

    这样配置好之后,yarn node labels就不用重复配置了

    正因为当初对未来做了太多的憧憬,所以对现在的自己尤其失望。生命中曾经有过的所有灿烂,终究都需要用寂寞来偿还。
  • 相关阅读:
    书:《必然》
    书:《经济学通识》
    书:《小岛经济学》
    书:《未来简史》
    书:《腾讯传》
    书:《把时间当做朋友》
    《激荡十年》七、玲珑初开、百子待落—2013
    【转】关于大型网站技术演进的思考(十一)--网站静态化处理—动静分离策略(3)
    【转】关于大型网站技术演进的思考(十)--网站静态化处理—动静整合方案(2)
    【转】关于大型网站技术演进的思考(九)--网站静态化处理--总述(1)
  • 原文地址:https://www.cnblogs.com/candlia/p/11920279.html
Copyright © 2020-2023  润新知