• 二、Hadoop-2.6的完全分布式安装模式


    一、Hadoop的3中运行模式

    1.1、单机模式。安装简单,几乎不用作任何配置,但仅限于调试用途;

    1.2、伪分布式模式。在单节点上同时启动namenode、secondary namenode、datanode、JobTracker、TaskTracker 5个进程,模拟分布式运行的各个节点。

    1.3、完全分布式模式。正常的Hadoop集群,由多个节点构成。

    二、Hadoop-2.6的完全分布式安装模式

    2.0、准备文件

    (1)Jdk1.7(或其他版本):jdk-7u79-linux-x64.tar.gz

    (2)Hadoop安装包:hadoop-2.6.4.tar.gz

    可在Apache官方网站或者镜像网站下载Hadoop。

    http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.4/

    下载hadoop-2.6.4-tar.gz后,使用tar解压。

    2.1、为虚拟机添加hadoop账号

    2.2、安装jdk

    export JAVA_HOME=/home/hadoop/jdk1.7

    export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

    export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

    此时,虚拟机拷贝多份。

    --------------------------拷贝多份虚拟机---------------------------

    2.3、修改虚拟机为固定IP地址(每个虚拟机都进行修改)

    2.4、配置hostname(每个虚拟机都进行修改)

    (1)sudo vim /etc/hostname

    每个虚拟机都进行修改,内容分别为(master、slave1、slave2…)

    2.5、配置hosts文件(每个虚拟机都进行修改)

    sudo vim /etc/hosts,将每台主机的ip地址、主机名都添加进来,该文件的内容如下:

    127.0.0.1 localhost

    192.168.0.40  master

    192.168.0.41  slave1

    192.168.0.42  slave2

    2.6、重启每个虚拟机

    2.7、配置ssh

    (1)ssh-keygen -t rsa   # 会有提示,都按回车就可以

    (2)cd ~/.ssh    

    (3)cat id_rsa.pub >> authorized_keys  # 将本机加入授权

    (4)将所有虚拟机的authorized_keys文件的内容,全都合并到一起,然后替换掉所有的authorized_keys文件。

    每个虚拟机都进行以上4步操作。

     

        测试:ssh localhost

           ssh 127.0.0.1

           ssh master

           ssh slave1

           ssh slave2

    问题: ssh: connect to host localhost port 22: Connection refused

    解决办法:sudo apt-get install openssh-server    // 安装ssh-serve

    注意事项:在进行ssh测试时,在这一步:

    Are you sure you want to continue connecting (yes/no)?

        此时输入:yes,而不能直接按回车,否则会连接失败。

    --------------------------部署hadoop-2.6---------------------------

    2.8、解压hadoop到某个目录下。并配置环境变量(所有虚拟机都要配置)

    (1)sudo vim /etc/profile。输入如下内容:

        #hadoop 

    export HADOOP_HOME=/home/hadoop/hadoop-2.6.4

    export PATH=$PATH:$HADOOP_HOME/bin

    export PATH=$PATH:$HADOOP_HOME/sbin

    (2)source /etc/profile,重新加载环境变量。

    9~14步:仅修改一个虚拟机

    2.9、修改配置文件 $HADOOP_HOME/etc/hadoop/core-site.xml

    该配置文件是hadoop的全局配置文件,下面的内容是配置NameNode的ip地址、监听的端口,以及tmp目录(tmp内容需要修改)。配置该文件的内容如下:

    <configuration>
    <!--指定namenode的地址-->
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://master:9000</value>
            </property>
    <!--用来指定使用hadoop时产生文件的存放目录--> 
            <property>
                    <name>hadoop.tmp.dir</name>
                   <value>/home/hadoop/hadoopdata</value>   
            </property>

    </configuration>

    属性fs.defaultFS表示NameNode节点地址,由“hdfs://主机名(或ip):端口号”组成。

    2.10、修改配置文件 $HADOOP_HOME/etc/hadoop/hdfs-site.xml

    该文件是hdfs的配置文件。修改内容如下:

    <configuration>

    <property>

    <name>dfs.replication</name>

    <value>1</value>

    </property>

    <property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>Master:50090</value>

    </property>

    <property>

    <name>dfs.namenode.name.dir</name>

    <value>file:/home/hadoop/hdfs/namenode</value>

    </property>

    <property>

    <name>dfs.datanode.data.dir</name>

    <value>file:/home/hadoop/hdfs/datanode</value>

    </property>

    </configuration>

    (1)属性“dfs.namenode.name.dir”表示NameNode

    存储命名空间和操作日志相关的元数据信息的本地文件系统目录,该项默认本地路

    径为”/tmp/hadoop-{username}/dfs/name”;

    (2)属性”dfs.datanode.data.dir“表示DataNode节点存储HDFS

    文件的本地文件系统目 录,由”file://本地目录”组成,该项默认本地路

    径为”/tmp/hadoop-{username}/dfs/data”。

    (3)属性“dfs.namenode.secondary.http-address”表示SecondNameNode

    主机及端口号(如果无需额外指定SecondNameNode角色,可以不进行此项配置);

    (4)属性“dfs.replication”表示,一个文件上传到hadoop上的副本数目,该值为1表示该文件只保存一份。

    2.11、修改配置文件 $HADOOP_HOME/etc/hadoop/mapred-site.xml

    该文件是mapReduce的配置文件。修改内容如下:

    <configuration>

    <property>     

    <name>mapreduce.framework.name</name>     <value>yarn</value>  

    </property>

    <property>

    <name>mapreduce.job.tracker</name>

    <value>hdfs://master:8888</value>

    <final>true</final>

    </property>

    </configuration>

    属性”mapreduce.framework.name“表示执行mapreduce任务所使用的运行框架,默认为 local,需要将其改为”yarn”.

    2.12、修改配置文件 $HADOOP_HOME/etc/hadoop/yarn-site.xml

    <configuration>   

    <property>     

         <name>yarn.resourcemanager.hostname</name>   

         <value>master</value>  

    </property>   

    <property>     

         <name>yarn.nodemanager.aux-services</name>    

         <value>mapreduce_shuffle</value>           

    </property>

    <property>

    <name>yarn.log-aggregation-enable</name>

    <value>true</value>

    </property>

    <property>

    <name>yarn.log-aggregation.retain-seconds</name>

    <value>604800</value>

    </property>

    </configuration>

    (1)属性”yarn.resourcemanager.hostname”用来指定ResourceManager主机地址;

    (2)属性”yarn.nodemanager.aux-service“表示MR applicatons所使用的shuffle工具类。

    2.13、修改配置文件$HADOOP_HOME/etc/hadoop/hadoop-env.sh

    配置JAVA_HOME

    2.14、修改配置文件$HADOOP_HOME/libexec/hadoop-config.sh

    在下面3行注释下面添加JAVA_HOME:

    # Newer versions of glibc use an arena memory allocator that causes virtual

    # memory usage to explode. This interacts badly with the many threads that

    # we use in Hadoop. Tune the variable down to prevent vmem explosion.

    export JAVA_HOME= . . .

    2.15、把该配置好的hadoop目录移动到另外两个slave虚拟机中

    先压缩hadoop成压缩包,然后利用scp移动到其他虚拟机。

    scp /root/hadoop-2.6.4.tar.gz slave1:/home/hadoop

    scp /root/hadoop-2.6.4.tar.gz slave2:/home/hadoop

    然后,ssh连接到其他虚拟机之后,再解压。

    2.16、仅修改master节点的配置文件:$HADOOP_HOME/etc/hadoop/slaves

    集群中的master节点(NameNode、ResourceManager)需要配置其所拥有的slave节点,其中: 

    NameNode节点的slaves内容为:slave1 slave2

    ----------------------------配置完毕---------------------------------

    格式化并开启hadoop。以下操作需在master节点中运行。

    2.17、格式化hdfs文件系统

    $HADOOP_HOME/bin/hdfs namenode -format  //格式化

    此处,需要hdfs-site.xml的配置文件的dir目录已经创建。

    2.18、开启hadoop

    分别登陆如下主机并执行相应命令(位于$HADOOP_HOME/sbin目录下): 

    ①  执行start-yarn.sh命令,启动集群资源管理系统yarn ;

    ②  执行start-dfs.sh命令启动集群HDFS文件系统;

    查看进程的状态:输入jps

    分别登陆各master/slave节点执行jps命令,查看每个节点是否有如下Java进程运行:

    master节点运行的进程:ResourceManager、NameNode、SecondaryNameNode 

    slave节点运行的进程: NodeManager、DataNode  

    如果以上操作正常则说明Hadoop集群已经正常启动。

    此外,还可通过浏览器查看hadoop的运行状态:

    http://master:8088/

    http://master:50070/

  • 相关阅读:
    Debian下通过SSHFS/SHFS挂载远程文件
    Linux下如何查看CPU信息, 包括位数和多核信息
    Nexus One USB in Ubuntu 9.10
    育儿书籍阅读顺序的建议
    Android 2.1 中 JNI 层 camera 的应用
    Android开发工具使用之adb
    改变父母的十本书
    在Ubuntu下使用adb
    改变父母的十本书之《童年的秘密》
    Ubuntu Lucid(10.04)上安装Google Android SDK环境
  • 原文地址:https://www.cnblogs.com/yuan2016/p/5779323.html
Copyright © 2020-2023  润新知