• centos6.8系统安装 Hadoop 2.7.3伪分布式集群


    安装 Hadoop 2.7.3


    配置ssh免密码登陆

    cd ~/.ssh                       # 若没有该目录,请先执行一次ssh localhost
    ssh-keygen -t rsa               # 会有提示,都按回车就可以
    cat id_rsa.pub >> authorized_keys # 加入授权
    chmod 600 ./authorized_keys # 修改文件权限


    1.此处我们选择二进制安装包

    http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

    解压:
    tar -zxf hadoop-2.7.3.tar.gz
    我们解压到了/data/yunva/hadoop-2.7.3目录

    输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息
    cd /data/yunva/hadoop-2.7.3
    # bin/hadoop version
    Hadoop 2.7.3
    Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r baa91f7c6bc9cb92be5982de4719c1c8af91ccff
    Compiled by root on 2016-08-18T01:41Z
    Compiled with protoc 2.5.0
    From source with checksum 2e4ce5f957ea4db193bce3734ff29ff4
    This command was run using /data/yunva/hadoop-2.7.3/share/hadoop/common/hadoop-common-2.7.3.jar

    2.Hadoop单机配置(非分布式)

    修改 hosts 文件,为你的主机名增加IP映射
    vim /etc/hosts
    10.10.33.84 ha01
    Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
    现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子(运行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jarr 可以看到所有例子),包括 wordcount、terasort、join、grep 等。

    在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。
    cd /data/yunva/hadoop-2.7.3/
    mkdir input
    cp etc/hadoop/*.xml input   # 将配置文件作为输入文件
    # bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ./input ./output 'dfs[a-z.]+' 
    # cat ./output/*
    1 dfsadmin

    通过命令 cat ./output/* 查看结果,符合正则的单词 dfsadmin 出现了1次:

    注意:Hadoop 默认不会覆盖结果文件,如需要再次运行上面实例需要先将 output 删除。

    3.Hadoop伪分布式配置

    Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

    在设置 Hadoop 伪分布式配置前,我们还需要设置 HADOOP 环境变量,执行如下命令在 /etc/profile 中设置:

    export HADOOP_HOME=/data/yunva/hadoop-2.7.3
    export HADOOP_INSTALL=$HADOOP_HOME
    export HADOOP_MAPRED_HOME=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_HDFS_HOME=$HADOOP_HOME
    export YARN_HOME=$HADOOP_HOME
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

    保存后,执行如下命令使配置生效
    source /etc/profile

    这些变量在启动 Hadoop 进程时需要用到,不设置的话可能会报错(这些变量也可以通过修改 ./etc/hadoop/hadoop-env.sh 实现)。

    Hadoop 的配置文件位于 /data/yunva/hadoop-2.7.3 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

    ①修改配置文件 core-site.xml (/etc/hadoop/core-site.xml)


    修改为下面配置:
    <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/data/yunva/hadoop-2.7.3/tmp</value>
            <description>Abase for other temporary directories.</description>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
        <property>  
        <name>dfs.namenode.rpc-bind-host</name>  
        <value>0.0.0.0</value>  
    </property>

    </configuration>

    ②同样的,修改配置文件 hdfs-site.xml:

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/data/yunva/hadoop-2.7.3/tmp/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/data/yunva/hadoop-2.7.3/tmp/dfs/data</value>
        </property>
    </configuration>

    ③配置完成后,执行 NameNode 的格式化:

    ./bin/hdfs namenode -format

    成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错。

    ④接着开启 NaneNode 和 DataNode 守护进程:
    ./sbin/start-dfs.sh

    若出现如下 SSH 的提示 “Are you sure you want to continue connecting”,输入 yes 即可

    报错:
    # ./sbin/start-dfs.sh
    17/03/21 15:36:00 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    Starting namenodes on [localhost]
    localhost: Error: JAVA_HOME is not set and could not be found.
    解决办法:
    hadoop-env.sh 和  yarn-env.sh 添加如下变量

    # egrep -v "#|^$" hadoop-env.sh 
    export JAVA_HOME=/usr/java/jdk1.8.0_111
    export HADOOP_SSH_OPTS="-p 2222"  # ssh端口非默认22端口
    export HADOOP_HOME=/data/yunva/hadoop-2.7.3
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    export  HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export  HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

    # egrep -v "#|^$" yarn-env.sh
    export JAVA_HOME=/usr/java/jdk1.8.0_111
    export HADOOP_HOME=/data/yunva/hadoop-2.7.3
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    export  HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export  HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"

    成功启动后,可以访问 Web 界面 http://ip:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

    4.运行Hadoop伪分布式实例

    上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:

    ./bin/hdfs dfs -mkdir -p /user/admin

    接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/admin/input 中。我们使用的是 admin 用户,并且已创建相应的用户目录 /user/admin ,因此在命令中就可以使用相对路径如 input,其对应的绝对路径就是 /user/admin/input:

    ./bin/hdfs dfs -mkdir /user/admin/input
    ./bin/hdfs dfs -put ./etc/hadoop/*.xml /user/admin/input

    复制完成后,可以通过如下命令查看 HDFS 中的文件列表:
    # bin/hdfs dfs -ls /user/admin/input
    Found 8 items
    -rw-r--r--   1 root supergroup       4436 2017-03-21 15:58 /user/admin/input/capacity-scheduler.xml
    -rw-r--r--   1 root supergroup       1082 2017-03-21 15:58 /user/admin/input/core-site.xml
    -rw-r--r--   1 root supergroup       9683 2017-03-21 15:58 /user/admin/input/hadoop-policy.xml
    -rw-r--r--   1 root supergroup       1180 2017-03-21 15:58 /user/admin/input/hdfs-site.xml
    -rw-r--r--   1 root supergroup        620 2017-03-21 15:58 /user/admin/input/httpfs-site.xml
    -rw-r--r--   1 root supergroup       3518 2017-03-21 15:58 /user/admin/input/kms-acls.xml
    -rw-r--r--   1 root supergroup       5511 2017-03-21 15:58 /user/admin/input/kms-site.xml
    -rw-r--r--   1 root supergroup        690 2017-03-21 15:58 /user/admin/input/yarn-site.xml

    若要关闭 Hadoop,则运行

    ./sbin/stop-dfs.sh

    注意
    下次启动 hadoop 时,无需进行 NameNode 的初始化,只需要运行 ./sbin/start-dfs.sh 就可以!

    启动YARN
    (伪分布式不启动 YARN 也可以,一般不会影响程序执行)
    有的读者可能会疑惑,怎么启动 Hadoop 后,见不到书上所说的 JobTracker 和 TaskTracker,这是因为新版的 Hadoop 使用了新的 MapReduce 框架(MapReduce V2,也称为 YARN,Yet Another Resource Negotiator)。

    YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度。YARN 运行于 MapReduce 之上,提供了高可用性、高扩展性,YARN 的更多介绍在此不展开,有兴趣的可查阅相关资料。

    上述通过 ./sbin/start-dfs.sh 启动 Hadoop,仅仅是启动了 MapReduce 环境,我们可以启动 YARN ,让 YARN 来负责资源管理与任务调度。

    首先修改配置文件 mapred-site.xml,这边需要先进行重命名:
    mv mapred-site.xml.template mapred-site.xml

    进行编辑
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>

    接着修改配置文件 yarn-site.xml:

    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
            </property>
    </configuration>

    然后就可以启动 YARN 了(需要先执行过 ./sbin/start-dfs.sh):

    ./sbin/start-yarn.sh      $ 启动YARN
    ./sbin/mr-jobhistory-daemon.sh start historyserver  # 开启历史服务器,才能在Web中查看任务运行情况

    http://1.1.1.1:8088/cluster

    执行jps报错:

    最近hadoop系统在升级后发现一个诡异的问题: jps命令返回的都是process information unavailable, jstack, jmap等所有使用attach api的命令都有类似问题.
    # jps
    8848 -- process information unavailable
    8395 -- process information unavailable
    8748 -- process information unavailable
    8270 -- process information unavailable

    解决方法:
    # chmod 755 -R /tmp

    网上资料
    以为是Jps有问题, 查看Jps源代码, 得知使用 jps -J-Djps.debug=true -J-Djps.printStackTrace=true 可以获得Jps错误详细信息, 如下:

    16373 -- process information unavailable
        Could not attach to 16373
    sun.jvmstat.monitor.MonitorException: Could not attach to 16373
        at sun.jvmstat.perfdata.monitor.protocol.local.PerfDataBuffer.<init>(PerfDataBuffer.Java:91)
        at sun.jvmstat.perfdata.monitor.protocol.local.LocalMonitoredVm.<init>(LocalMonitoredVm.java:68)
        at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.getMonitoredVm(MonitoredHostProvider.java:77)
        at sun.tools.jps.Jps.main(Jps.java:92)
    Caused by: java.io.IOException: Operation not permitted
        at sun.misc.Perf.attach(Native Method)
        at sun.misc.Perf.attachImpl(Perf.java:270)
        at sun.misc.Perf.attach(Perf.java:200)
        at sun.jvmstat.perfdata.monitor.protocol.local.PerfDataBuffer.<init>(PerfDataBuffer.java:64)
        ... 3 more

    static bool is_directory_secure(const char* path) {  
      struct stat statbuf;  
      int result = 0;   
      
      RESTARTABLE(::lstat(path, &statbuf), result);  
      if (result == OS_ERR) {  
        return false;  
      }  
      
      // the path exists, now check it's mode  
      if (S_ISLNK(statbuf.st_mode) || !S_ISDIR(statbuf.st_mode)) {  
        // the path represents a link or some non-directory file type,  
        // which is not what we expected. declare it insecure.  
        //     
        return false;  
      }  
      else {  
        // we have an existing directory, check if the permissions are safe.  
        //     
        if ((statbuf.st_mode & (S_IWGRP|S_IWOTH)) != 0) {   
          // the directory is open for writing and could be subjected  
          // to a symlnk attack. declare it insecure.  
          //     
          return false;  
        }      
      }  
      return true;  
    }  

    确定问题是权限问题, 可抛出异常的却是native code.无奈只有下载openjdk源代码(native code部分在src.zip的jdk类库中没有源代码), 在@RednaxelaFX 的帮助下,找到了罪魁祸首:
    hotspot/src/os/Linux/vm/perfMemory_linux.cpp
    [root@ha01 ~]# chmod 755 -R /tmp

    原来目录权限是S_IWGRP | S_IWOTH都会有问题.查看/tmp/hsperfdata_mapred发现权限被人修改成了777. 修改回755后, 问题解决.

    最后,交代一下关于jps的基础知识, jps, jstack等都是通过/tmp/hsperfdata_${user_name} 来确定正在运行的java进程pid等信息. 如果启动java进程时使用-Djava.io.tmpdir 后, jps等可能会由于找不到对应的数据而有问题. 这次遇到的是该目录的权限问题. 
  • 相关阅读:
    CSS 基本语法
    Html 块
    Html 表单
    Html 创建表格
    Html 建立超链接
    Html 在网页中使用图像
    CentOS7 重启问题
    Java 多线程——多线程的引入
    c++ 自然排序-window文件排序
    MFC更改图标
  • 原文地址:https://www.cnblogs.com/reblue520/p/6784496.html
Copyright © 2020-2023  润新知