Apache Hadoop YARN
百度百科:https://baike.baidu.com/item/yarn/16075826?fr=aladdin
(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
架构搭建:
单点配置:
官网地址:http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html
etc/hadoop/mapred-site.xml:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
etc/hadoop/yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
扩展配置:ResourceManager HA
官网地址:http://hadoop.apache.org/docs/r2.6.5/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html
Sample configurations
Here is the sample of minimal setup for RM failover.
etc/hadoop/yarn-site.xml:
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>cluster1</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>master1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>master2</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>zk1:2181,zk2:2181,zk3:2181</value>
</property>
结合起来就是:
node01 下:
修改好的文件分发给node02、node03、node04。
启动YARN:
slaves 制定了nodemanager 的位置
在node01下:
执行:start-yarn.sh
在node03 和 node04 下:
执行: yarn-daemon.sh start resourcemanager
停止YARN:
在node01下:
stop-yarn.sh
在node03 和 node04 下:
yarn-daemon.sh stop resourcemanager
登录页面:
计算演示:分布式程序
输出目录:
_SUCCESS:
表示输出成功
part-r-00000:
其中 r 表示 reduce。( r 这里可以是 m (map) )
00000 表示第一台reduce, 默认只有一个reduce。
yarn-site.xml 中,有关mapreduce日志查看的aggregation配置启用
在yarn-site.xml 中加入以下配置
<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property>