• 使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0


    使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

    网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java,但较新的 2.X 版本中,已经没有 hadoop-core*.jar 这个文件,因此编辑和打包自己的MapReduce程序与旧版本有所不同。

    本文以 Hadoop 2.6.0 单机模式环境下的 WordCount 实例来介绍 2.x 版本中如何编辑自己的 MapReduce 程序。

    Hadoop 2.x 版本中的依赖 jar

    Hadoop 2.x 版本中 jar 不再集中在一个 hadoop-core*.jar 中,而是分成多个 jar,如使用 Hadoop 2.6.0 运行 WordCount 实例至少需要如下三个 jar:

    • $HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar
    • $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar
    • $HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar

    实际上,通过命令 hadoop classpath 我们可以得到运行 Hadoop 程序所需的全部 classpath 信息。

    编译、打包 Hadoop MapReduce 程序

    我们将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:

    export HADOOP_HOME=/usr/local/hadoop
    export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
    

    别忘了执行 source ~/.bashrc 使变量生效,接着就可以通过 javac 命令编译 WordCount.java 了(使用的是 Hadoop 源码中的 WordCount.java,源码在文本最后面):

    1. javac WordCount.java
    Shell 命令

    编译时会有警告,可以忽略。编译后可以看到生成了几个 .class 文件。

    使用Javac编译自己的MapReduce程序使用Javac编译自己的MapReduce程序

    接着把 .class 文件打包成 jar,才能在 Hadoop 中运行:

    1. jar -cvf WordCount.jar ./WordCount*.class
    Shell 命令

    打包完成后,运行试试,创建几个输入文件:

    1. mkdir input
    2. echo "echo of the rainbow" > ./input/file0
    3. echo "the waiting game" > ./input/file1
    Shell 命令

    创建WordCount的输入创建WordCount的输入

    如果读者Hadoop的环境是单机模式,请跳过此步骤。如果读者的Hadoop环境已经配置成伪分布式,那么读者还需要进行执行下列操作命令:

    1. # 把本地文件上传到伪分布式HDFS上
    2. /usr/local/hadoop/bin/hadoop fs -put ./input input
    Shell 命令

    开始运行。直接运行/usr/local/hadoop/bin/hadoop jar WordCount.jar WordCount input output,可能会出现找不到类的错误:
    找不到类
    这是因为我们在代码中设置了package包名,这里也要写全,正确的命令如下。

    1. /usr/local/hadoop/bin/hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input output
    Shell 命令

    正确运行后的结果如下:
    WordCount 运行结果
    伪分布式结果

    查看结果

  • 相关阅读:
    GL线程
    Texture,TextureRegion,Sprite,SpriteBatch
    设置壁纸
    CentOS7下安装MySQL,修改端口
    读《大道至简》有感
    课程作业01汇总整理
    读《大道至简》有感(伪代码)
    01实验性问题总结归纳
    oracle日期时间的加减法
    C# 根据年、月、周、星期获得日期等
  • 原文地址:https://www.cnblogs.com/lfxiao/p/10432377.html
Copyright © 2020-2023  润新知