学习java时,第一个运行的程序就是HelloWorld;对应的,学习hadoop第一个运行的程序是hadoop提供的示例WordCount;
1.运行hadoop,以管理员身份打开cmd,执行 start-all 指令,hadoop的安装和配置是事先准备好的,安装和配置的方法可以看我的上一篇文章:windows下安装和配置hadoop
2.执行hadoop fs -ls /,查看Hadoop文件系统根目录下的包含的目录,这3个目录是上一次运行单词统计中生成的,为了重新演示,删除这些目录,执行hadoop fs -rm -r /input /output /tmp
3.到hadoop安装目录下,我的安装目录是D:hadoophadoop-3.2.2,安装目录下有一个LICENSE.txt文件,对这个文件的内容进行单词统计,将这个文件加入到hadoop文件系统的input目录下,input目录下放置一个或多个要统计的文件;
首先在hadoop文件系统中创建input文件夹,执行hadoop fs -mkdir /input
然后ls可以看到新建了input目录
4.将LICENSE.txt文件加入到hadoop文件系统的input目录下,执行hadoop fs -put LICENSE.txt /input/,然后ls可以看到input下有LICENSE.txt文件
5.进行单词统计,WordCount的程序是hadoop的示例程序,位置在hadoop的安装目录下的sharehadoopmapreducehadoop-mapreduce-examples-3.2.2.jar,运行这个jar,执行
hadoop jar sharehadoopmapreducehadoop-mapreduce-examples-3.2.2.jar wordcount /input /output
6.查看输出的结果,使用ls指令可以看到hadoop文件系统中出现了output目录和tmp目录,output目录下新出现了_SUCCESS文件和part-r-00000文件,单词统计的结果在part-r-00000文件中
查看 part-r-00000文件文件内容,执行hadoop fs -cat /output/part-r-00000,可以看到单词统计的结果: