• Hadoop2.2.0多节点分布式安装及测试


    众所周知,hadoop在10月底release了最新版2.2。很多国内的技术同仁都马上在网络上推出了自己对新版hadoop的配置心得。这其中主要分为两类:

    1.单节点配置

    这个太简单了,简单到只要懂点英语,照着网上说的做就ok了。我这里不谈这个,有兴趣的童鞋可以自己去问度娘和谷哥~

    2.多节点配置

    这个就是我要重点说明的,老实说网络上说的的确是多节点,但不是真正的分布式部署~ 我们为什么要用hadoop?因为hadoop是一个分布式系统基础架构,我们可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 如果只是多节点,但是程序还在一个节点运行,其它节点没有参与程序运行活动。 那和你在网吧里,自己一个人看片子和其他人无交集有什么区别? 所以网上提供的都是多节点伪分布式的配置~

    接下来我会贡献出自己这几天弄的一些心得,或许有人看了开头觉得我写的和网上那些差不多,但是真正的区别我会在之后列出来,就看谁有耐心看完我写的东西啦~霍霍~

    准备

    我用的linux系统是ubuntu 12.04 LTS server版(就是没有桌面显示的版本)。 虚拟机用的是VMWare Workstation10,ssh客户端是开源的putty,还有ftp客户端软件是cuteFTP(虽然可以在linux系统里用vim对文件进行编辑修改,但我觉得有客户端直接在windows系统里修改文件比较方便和高效)。 tomcat版本是6.0.29,jdk版本是1.7.45。虚拟机里ubuntu的网络设置我用的是UAT模式,也就是说和外部window系统的网络配置是共享的,除了IP地址不一样,其他都雷同。

    安装tomcat和jdk什么我就不用说了。还有初始的分辨率是600x800,需要重调我也不说了。至于安装vsftpd和openssh,我更加不说了。度娘和谷哥都知道。

    这里就列我弄的两个ubuntu系统。hadoop里把主节点系统叫为master,从节点系统叫为slave。master只能有一个,slave可以有许多个。就如一个老板可以有很多员工为他打工一样。(当然在很多情况下,还会有个做备份的master,防止master出问题时候,有个替补直接顶上)

    为了行文方便,后面我就直接用master和slave称呼这两个。(网上都喜欢用三节点做例子,一个master两个slave,我简化了一下,就一个master和一个slave,反正都是以此类推的东西,搞简单点)

    我的系统原始信息:

      hostname IP address
    master hadoop 192.168.72.130
    slave hadoop1 192.168.72.128
     

    hostname是自己改的,IP地址是你安装完你的ubuntu后,电脑在UAT模式下自动生成的IP地址。请根据你自己情况记录这些信息。还有hostname如何永久地改成hadoop和hadoop1,请问度娘和谷哥。

    每个ubuntu里分别加入专为hadoop使用的帐号
    命令:

    addgroup hadoop
    adduser ingroup hadoop wujunshen

    这个wujunshen是我在用VMWare安装ubuntu时候,让我自己设定的帐号名字,大家可以自行设定。但是hadoop这个用户组名最好不要改。

    有人会问 ubuntu里非root账户登录后,输入命令开头不都要打sudo么?这个其实也可以设置,再次提醒请问度娘和谷哥。这里哥给个当年自己记录的博文链接:http://darkranger.iteye.com/admin/blogs/768608

    注意:两个ubuntu的hadoop帐号名要一样,不一样就算你配置好了,测试时候也不成功的。我看了一下hadoop的代码,它好像是在hadoop代码里写死了读取帐号名的值。(shell不太会,只看了个大概) 有人说要在系统里设置%HADOOP_HOME%为你安装hadoop的路径,就可以帐号名不一样了。 我没试验过,因为我觉得测试这个有点无聊了,或许《生活大爆炸》里Sheldon会这么做。:)

    建立两个系统ssh通信互相信任关系

    要在两个系统上每一个进行以下操作。(如果slave有很多个,这样做是很浪费时间的,一般都要用个shell自动化脚本来建立信任关系。这里只是示例,麻烦各位手打或copy了。)

    进入wujunshen帐号,输入命令

    ssh-keygen -t rsa -P ""
    cat .ssh/id_rsa.pub >>.ssh/authorized_keys (出现两个问题,第一个问题回车就行,第二个输入y回车,千万不要直接回车,否则不会生成key)

    注意:如果出现错误:-bash: .ssh/authorized_keys: No such file or directory 这是由于新建好的用户帐号,比如我这里是wujunshen这个帐号,默认没有.ssh目录,需要自己建立。

    mkdir -p ~/.ssh

    接下来还有一步,我用cuteFTP做的,觉得自己牛逼的可以用linux的拷贝粘贴命令搞。

    在每个ubuntu下找到刚才生成的authorized_keys文件,我这里路径是: /home/wujunshen/.ssh/authorized_keys

    修改该文件,让此文件包含生成的rsa字符串(有关RSA加密算法的由来,你还是可以去问度娘和谷哥,那是个传奇的故事)和两个ubuntu的hostname,比如我这里是:

    ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDEBNUjKbZQOQsc6iNawm5VxXk+Kx5MXS1A6ZX/xtAfAI3jurVTgNHz6T2exf/dHP3aoaK49vl6EeMg4hZ7qwxldeERMXNBu5m0y/JyRupX9RfHRjJyqSXRdJ1WjE2ySPtXdLNPjKDvzjf61dSP/iMXeemlZfZV2VNqJiLTlpG3OvjraICUXCXMMB4h72Qm59iIHZ4iRI2v5VMmp+CeGEqHba0O8UUkpSpqC8vZCFJKL+IfCFups9OGrKIT854/Xc+vPSd89jA3RLubJThE/F/8QczqSBHXYrLeUMir3lFEPqLe7U4jk5n83/3fAsagaUyXBCWGm7LanLgXsqMfKBxD wujunshen@hadoop1
    ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQC+umV0w7qcQyHJzfqRc+mHE+eCWw8Ns/uU05CF4fEJnGkys+0Itwsh+edwt8K4oHZ8rK0THO1ip2oNXHzVJ8aJ7rpeI19N0BubCahhGbVNqzgyGgvbnz3+xD/La47YNBzjHF4AxTu+Dj51vOp1yRaiTwhu93o9PP18x2Ai7aNQEap7pGpBwogbfSWDBvZNq9PJYinjzhnVqJ7bctJe+1ufme7bX+vyu1hrdtfpwXgW5GiXQ6uvYH6ExiTSWlLFMyDgD63APm1P2Hs1hlR1gNE3SC4q34mfExhoxY3JJgfbP0x2rt8PfdWk5Lzxtaylj85bmZi/9xDvXdoqjtSv4Mxb wujunshen@hadoop

    保证每个ubuntu系统的authorized_keys文件都包含wujunshen@hadoop1和wujunshen@hadoop以及它们的rsa字符串.

    然后在其中一个ubuntu上进行测试,比如我这里在master里输入

    ssh hadoop1   

    去访问slave,这样就不需要输入密码就能访问hadoop1,然后我输入

    ssh hadoop  

    回到master。

    结果如下:

    wujunshen@hadoop:~$ ssh hadoop1
    Welcome to Ubuntu12.04.3 LTS (GNU/Linux3.8.0-29-generic i686)*Documentation:  https://help.ubuntu.com/Last login:WedNov2719:29:552013from hadoop
    wujunshen@hadoop1:~$ ssh hadoop
    Welcome to Ubuntu12.04.3 LTS (GNU/Linux3.8.0-29-generic i686)*Documentation:  https://help.ubuntu.com/Last login:WedNov2719:30:032013from hadoop1
    wujunshen@hadoop:~$

    截图:

    enter image description here

    注意:如果ssh hadoop或ssh hadoop1 出现错误: Host key verification failed

    解决方法:到 /home/wujunshen/.ssh目录下找到known_hosts文件,删除known_hosts文件。命令:

     rm known_hosts  

    安装

    去官网下载hadoop-2.2.0.tar.gz

    然后在两个ubuntu里进行以下操作。

    解压压缩包在/home/wujunshen目录下

    命令:

    tar zxf hadoop-2.2.0.tar.gz  

    解开之后是个hadoop-2.2.0文件夹,改名为hadoop

    命令:

    mv hadoop-2.2.0 hadoop  

    安装结束。(安装很简单,但你要想用起来,接下来是重头戏)

    配置

    以下操作,master和slave都是一样的。

    在/home/wujunshen/hadoop/etc/hadoop下找 hadoop-env.sh,修改此文件 找到export JAVA_HOME这一列,后面改成自己的jdk安装目录,比如我这里是/usr/lib/jdk1.7.0_45

    改成

    export JAVA_HOME=/usr/lib/jdk1.7.0_45  

    在同一路径下找 core-site.xml,修改它在 < configuration >中添加:

    <property><name>hadoop.tmp.dir</name><value>/home/wujunshen/hadoop/tmp/hadoop-${user.name}</value><description>A base for other temporarydirectories.</description></property><property><name>fs.default.name</name><value>hdfs://192.168.72.130:8010</value><description>The name of the default file system.  A URI whose
       scheme and authority determine the FileSystem implementation.  The
       uri's scheme determines the config property (fs.SCHEME.impl) naming
       the FileSystem implementation class. The uri's authority is used to
       determine the host, port, etc. for a filesystem.</description></property>

    注意

    1. /home/wujunshen/hadoop下缺省是没有tmp文件夹的,要用命令: mkdir /home/wujunshen/hadoop/tmp创建
    2. hdfs://192.168.72.130:8010 里的IP地址就是master 的IP地址

    同一路径下修改 mapred-site.xml

    因为缺省是没有这个文件的,要用模板文件造一个,命令为:

    mv /home/wujunshen/hadoop/etc/hadoop/mapred-site.xml.template/home/hduser/hadoop/etc/hadoop/mapred-site.xml  

    在 < configuration >中添加:

    <property><name>mapred.job.tracker</name><value>192.168.72.130:54311</value><description>The host and port that the MapReduce job tracker runs
     at.  If "local", thenjobs are run in-process as a single map
     and reduce task.
     </description></property><property><name>mapred.map.tasks</name><value>10</value><description>As a rule of thumb, use 10x the number of slaves(i.e., number of tasktrackers).          
    </description></property><property><name>mapred.reduce.tasks</name><value>2</value><description>As a rule of thumb, use 2x the number of slaveprocessors (i.e., number of tasktrackers).
    </description></property>

    注意:< value >192.168.72.130:54311< /value >里的IP地址就是master 的IP地址

    同一路径下修改 hdfs-site.xml, 在 < configuration >中添加:

    <property><name>dfs.replication</name><value>1</value><description>Default block replication.
     Theactual number of replications can be specified when the file is created.
     Thedefault is used if replication is not specified in create time.
     </description></property>

    注意:< value >1< /value >里的数字1表明的是dfs文件备份个数, 如果你只有3个slave,但是你却指定值为4,那么这是不会生效的,因为每个salve上只能存放一个备份文件。 如果你设置了100个slave,那么这个就写100。 我这里slave就1个,就写了1。 网上那些因为都是三节点,一个master,两个slave,所以都写2,但网上很少有人会说要根据实际slave的个数修改。

    同一路径下修改slaves文件 增加所有slaves的hostname。比如我这里slave就一个,hostname是hadoop1,所以只有一个hadoop1,该文件内容只为

    hadoop1  

    运行

    所有操作只需要在master运行即可。系统会自动登录到slave上。

    初次运行Hadoop的时候需要初始化Hadoop文件系统 ,在master上输入命令

    cd /home/wujunshen/hadoop/bin
    ./hdfs namenode -format  

    执行成功,你会在日志中(倒数几行)找到如下成功的提示信息:

    common.Storage:Storage directory /home/wujunshen/hadoop/tmp/hadoop-wujunshen/dfs/name has been successfully formatted.

    再去启动hadoop,命令:

    cd home/wujunshen/hadoop/sbin/./start-dfs.sh
    ./start-yarn.sh  

    注意:你也可以直接运行./start-all.sh,不用分开启动dfs和yarn.第一次运行start-all会出现一个问题,输入yes就行了。

    查看运行结果 执行你的jdk运行目录下的jps,比如我这里是 /usr/lib/jdk1.7.0_45/bin/

    输入命令:

    /usr/lib/jdk1.7.0_45/bin/jps  

    在hadoop上结果为:

    6419ResourceManager6659Jps6106NameNode6277SecondaryNameNode

    在hadoop1结果为:

    3930SecondaryNameNode4222Jps3817DataNode3378NodeManager

    或执行命令

    cd /home/wujunshen/hadoop/bin
    ./hdfs dfsadmin -report  

    结果:

    ConfiguredCapacity:51653570560(48.11 GB)PresentCapacity:46055575552(42.89 GB)
    DFS Remaining:46055550976(42.89 GB)
    DFS Used:24576(24 KB)
    DFS Used%:0.00%Under replicated blocks:0Blockswith corrupt replicas:0Missing blocks:0-------------------------------------------------Datanodes available:1(1 total,0 dead)Live datanodes:Name:192.168.72.128:50010(hadoop1)Hostname: hadoop1
    DecommissionStatus:NormalConfiguredCapacity:51653570560(48.11 GB)
    DFS Used:24576(24 KB)Non DFS Used:5597995008(5.21 GB)
    DFS Remaining:46055550976(42.89 GB)
    DFS Used%:0.00%
    DFS Remaining%:89.16%Last contact:WedNov2723:56:32 PST 2013

    截图:

    enter image description here

    注意:有时候会发现hadoop1上的datanode没有出现,这个时候以我的体会,最好是把/home/wujunshen/hadoop下的tmp文件夹删除,然后重新建,重新初始化hadoop文件系统,重启hadoop,然后执行两种查看方式再看看

    测试

    两种测试方法,实际是运行了两个示例程序,一个是wordcount,另外一个是randomwriter

    1.执行下列命令:

    cd /home/wujunshen
    wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt
    cd hadoop
    bin/hdfs dfs -mkdir /tmp
    bin/hdfs dfs -copyFromLocal /home/wujunshen/pg20417.txt /tmp
    bin/hdfs dfs -ls /tmp
    bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp//tmp-output  

    2.执行下列命令:

    cd  /home/wujunshen/hadoop
    bin/hdfs dfs -mkdir /input
    bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter input  

    总结

    如果你能看到这里,而且按照我之前说的已经运行成功了。那么恭喜你,你实现了hadoop多节点伪分布式的配置。对的,你没看错!!!就是伪分布式~ 可能有人不服气会说:怎么到这里就是伪分布式了呢?不是都OK的么?那么我请你仔细看看你测试中选择的两种示例程序启动的job,如图是运行第二个randomwriter 程序的job:
    enter image description here

    看到红框了伐?全是Local!!!也就是说不管你执行哪个示例程序,启动的job都只是在master这个节点本地运行的job。哪里有让slave节点参与了?

    再说,看看wordcount这个单词就知道是个计算单词的示例程序,如果只有master一个节点计算,那么这能算分布式多节点参与计算么? 所以各位朋友,请接着耐心地看下去,看我如何施展魔法让hadoop真正的进行分布式计算!!!

    真.配置

    之前配置里所说的那些文件修改还是要的。这里我们再对其中一些文件进行修改。

    在/home/wujunshen/hadoop/etc/hadoop 下找到 yarn-env.sh,修改它

    找到设置JAVA_HOME的那一列 改成:

    export JAVA_HOME=/usr/lib/jdk1.7.0_45  

    在/home/wujunshen/hadoop/etc/hadoop 下修改mapred-site.xml 在 < configuration >中添加(原先的配置还留着):

    <property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>192.168.72.130:10020</value></property><property><value>192.168.72.130:19888</value></property>

    在/home/wujunshen/hadoop/etc/hadoop 下修改yarn-site.xml 在 < configuration >中添加:

    <property><name>yarn.resourcemanager.address</name><value>hadoop:8032</value></property><property><description>The address of the scheduler interface.</description><name>yarn.resourcemanager.scheduler.address</name><value>hadoop:8030</value></property><property><description>The address of the RM web application.</description><name>yarn.resourcemanager.webapp.address</name><value>hadoop:8088</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>hadoop:8031</value></property><property><description>The address of the RM admin interface.</description><name>yarn.resourcemanager.admin.address</name><value>hadoop:8033</value></property><property><description>The address of the RM admin interface.</description><name>yarn.nodemanager.address</name><value>hadoop:10000</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property>

    注意:这里很多value都是hadoop打头的,我一开始修改这些文件都是填写master的IP地址,我后来试验了一下,其实用master的hostname,也就是hadoop也可以的。再然后,我发现是之前修改了/etc路径下的hosts文件,在其中加入了

    192.168.72.130 hadoop
    192.168.72.128 hadoop1

    后,使得Master与所有Slave机器之间不仅可以通过IP进行通信,而且还可以通过主机名进行通信导致的。

    好了重复测试里那两个示例程序,这里我运行了randomwriter程序,因为之前已经创建过input文件夹,现在执行命令会报错说input已存在,很简单,后面加个1就行,命令变成

    cd  /home/wujunshen/hadoop
    bin/hdfs dfs -mkdir /input1
    bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter input1

    重复执行这些命令的话,就把后面改成2,3,4就好了。反正是例子,随意一点,不用像工作中要取个很正式的名字。

    结果如下:

    13/11/2819:37:23 INFO mapreduce.Job:Running job: job_1385696103815_0001
    13/11/2819:37:43 INFO mapreduce.Job:Job job_1385696103815_0001 running in uber mode :false13/11/2819:37:43 INFO mapreduce.Job:  map 0% reduce 0%13/11/2819:51:05 INFO mapreduce.Job:  map 10% reduce 0%13/11/2819:51:11 INFO mapreduce.Job:  map 20% reduce 0%13/11/2819:51:13 INFO mapreduce.Job:  map 30% reduce 0%13/11/2819:51:19 INFO mapreduce.Job:  map 40% reduce 0%13/11/2819:51:21 INFO mapreduce.Job:  map 50% reduce 0%13/11/2819:51:40 INFO mapreduce.Job:  map 60% reduce 0%13/11/2820:03:37 INFO mapreduce.Job:  map 70% reduce 0%13/11/2820:03:48 INFO mapreduce.Job:  map 80% reduce 0%13/11/2820:03:49 INFO mapreduce.Job:  map 90% reduce 0%13/11/2820:03:51 INFO mapreduce.Job:  map 100% reduce 0%13/11/2820:03:53 INFO mapreduce.Job:Job job_1385696103815_0001 completed successfully
    13/11/2820:03:53 INFO mapreduce.Job:Counters:30FileSystemCounters
                FILE:Number of bytes read=0
                FILE:Number of bytes written=789520
                FILE:Number of read operations=0
                FILE:Number of large read operations=0
                FILE:Number of write operations=0
                HDFS:Number of bytes read=1270
                HDFS:Number of bytes written=10772863128
                HDFS:Number of read operations=40
                HDFS:Number of large read operations=0
                HDFS:Number of write operations=20JobCountersKilled map tasks=5Launched map tasks=15Otherlocal map tasks=15Total time spent by all maps in occupied slots (ms)=9331745Total time spent by all reduces in occupied slots (ms)=0Map-ReduceFrameworkMap input records=10Map output records=1021605Input split bytes=1270SpilledRecords=0FailedShuffles=0MergedMap outputs=0
                GC time elapsed (ms)=641170
                CPU time spent (ms)=806440Physical memory (bytes) snapshot=577269760Virtual memory (bytes) snapshot=3614044160Total committed heap usage (bytes)=232574976
        org.apache.hadoop.examples.RandomWriter$Counters
                BYTES_WRITTEN=10737514428
                RECORDS_WRITTEN=1021605FileInputFormatCountersBytesRead=0FileOutputFormatCountersBytesWritten=10772863128Job ended:ThuNov2820:03:53 PST 2013The job took 1594 seconds.

    可以看到这个时候Job名字打头已经不是local了,而是job了。而且可以登录http://192.168.72.130:8088查看运行的job状态

    如图:
    enter image description here[+]查看原图

    上图还是这个job处于running状态时的信息。

    完成时信息如下图:
    enter image description here[+]查看原图

    现在我们再执行那个wordcount程序,这里和randomwriter类似。

    命令是

    cd  /home/wujunshen/hadoop
    bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp//tmp-output100(为啥是tmp-output100,之前在说randomwriter示例程序时候已经说过)

    结果:

    13/11/2900:01:40 INFO client.RMProxy:Connecting to ResourceManager at hadoop/192.168.72.130:803213/11/2900:01:41 INFO input.FileInputFormat:Total input paths to process :113/11/2900:01:41 INFO mapreduce.JobSubmitter: number of splits:113/11/2900:01:41 INFO Configuration.deprecation: user.name is deprecated.Instead,use mapreduce.job.user.name
    13/11/2900:01:41 INFO Configuration.deprecation: mapred.jar is deprecated.Instead,use mapreduce.job.jar
    13/11/2900:01:41 INFO Configuration.deprecation: mapred.output.value.classis deprecated.Instead,use mapreduce.job.output.value.class13/11/2900:01:41 INFO Configuration.deprecation: mapreduce.combine.classis deprecated.Instead,use mapreduce.job.combine.class13/11/2900:01:41 INFO Configuration.deprecation: mapreduce.map.classis deprecated.Instead,use mapreduce.job.map.class13/11/2900:01:41 INFO Configuration.deprecation: mapred.job.name is deprecated.Instead,use mapreduce.job.name
    13/11/2900:01:41 INFO Configuration.deprecation: mapreduce.reduce.classis deprecated.Instead,use mapreduce.job.reduce.class13/11/2900:01:41 INFO Configuration.deprecation: mapred.input.dir is deprecated.Instead,use mapreduce.input.fileinputformat.inputdir
    13/11/2900:01:41 INFO Configuration.deprecation: mapred.output.dir is deprecated.Instead,use mapreduce.output.fileoutputformat.outputdir
    13/11/2900:01:41 INFO Configuration.deprecation: mapred.map.tasks is deprecated.Instead,use mapreduce.job.maps
    13/11/2900:01:41 INFO Configuration.deprecation: mapred.output.key.classis deprecated.Instead,use mapreduce.job.output.key.class13/11/2900:01:41 INFO Configuration.deprecation: mapred.working.dir is deprecated.Instead,use mapreduce.job.working.dir
    13/11/2900:01:42 INFO mapreduce.JobSubmitter:Submitting tokens for job: job_1385696103815_0009
    13/11/2900:01:42 INFO impl.YarnClientImpl:Submitted application application_1385696103815_0009 to ResourceManager at hadoop/192.168.72.130:803213/11/2900:01:42 INFO mapreduce.Job:The url to track the job: http://hadoop:8088/proxy/application_1385696103815_0009/13/11/2900:01:42 INFO mapreduce.Job:Running job: job_1385696103815_0009
    13/11/2900:01:53 INFO mapreduce.Job:Job job_1385696103815_0009 running in uber mode :false13/11/2900:01:53 INFO mapreduce.Job:  map 0% reduce 0%13/11/2900:02:03 INFO mapreduce.Job:  map 100% reduce 0%13/11/2900:02:18 INFO mapreduce.Job:  map 100% reduce 50%13/11/2900:02:19 INFO mapreduce.Job:  map 100% reduce 100%13/11/2900:02:20 INFO mapreduce.Job:Job job_1385696103815_0009 completed successfully
    13/11/2900:02:20 INFO mapreduce.Job:Counters:43FileSystemCounters
                FILE:Number of bytes read=267032
                FILE:Number of bytes written=771667
                FILE:Number of read operations=0
                FILE:Number of large read operations=0
                FILE:Number of write operations=0
                HDFS:Number of bytes read=674677
                HDFS:Number of bytes written=196192
                HDFS:Number of read operations=9
                HDFS:Number of large read operations=0
                HDFS:Number of write operations=4JobCountersLaunched map tasks=1Launched reduce tasks=2Data-local map tasks=1Total time spent by all maps in occupied slots (ms)=7547Total time spent by all reduces in occupied slots (ms)=25618Map-ReduceFrameworkMap input records=12760Map output records=109844Map output bytes=1086547Map output materialized bytes=267032Input split bytes=107Combine input records=109844Combine output records=18040Reduce input groups=18040Reduce shuffle bytes=267032Reduce input records=18040Reduce output records=18040SpilledRecords=36080ShuffledMaps=2FailedShuffles=0MergedMap outputs=2
                GC time elapsed (ms)=598
                CPU time spent (ms)=4680Physical memory (bytes) snapshot=267587584Virtual memory (bytes) snapshot=1083478016Total committed heap usage (bytes)=152768512ShuffleErrors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0FileInputFormatCountersBytesRead=674570FileOutputFormatCountersBytesWritten=196192

    可以看到job名字也是以job打头的一个名字。

    注意:这里有可能会碰到错误:

    java.io.FileNotFoundException:Pathisnot a file:/tmp/hadoop-yarn  

    解决方法很简单,命令是:

    cd  /home/wujunshen/hadoop
    bin/hdfs dfs -mkdir /tmp
    bin/hdfs dfs -copyFromLocal /home/wujunshen/pg20417.txt /tmp
    bin/hdfs dfs -ls /tmp  

    (如果之前已经运行过以上命令就没必要再输入这些命令了。我顺便讲一下这几个命令,其实hadoop是在ubuntu的文件系统中划出了一块作为它自己的文件系统,所谓的hdfs全称就是hadoop file system,但是这个文件系统中的文件和文件夹是无法用ubuntu的命令找到的,也无法在win7,win8中用FTP客户端cuteFTP找到。因为这是虚拟的文件系统,现实中不存在。所以如果要在这个虚拟化的文件系统中进行文件和文件夹创建,还有拷贝和查看等操作,必须开头是以bin/hdfs dfs打头的,这样就能在这个虚拟的文件系统中进行普通系统的操作,当然后面要有个减号,可以看到mkdir /tmp,copyFromLocal /home/wujunshen/pg20417.txt /tmp和ls /tmp就是普通文件系统操作命令)

    bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /tmp/pg20417.txt /tmp-output101  

    出现该错误的原因是在运行上条命令时候,在虚拟文件系统hdfs的tmp文件夹下自动创建了一个/tmp/hadoop-yarn,而我们是对pg20417.txt 这个文本中的word个数进行计算,要找的是file而不是path,所以我们改成/tmp/pg20417.txt, 让wordcount 程序知道自己要找的是个file而不是path,而且还知道自己要找的是哪个file。

    登录http://192.168.72.130:8088查看运行的job状态

    enter image description here[+]查看原图

    可以看到我试验的各种成功和失败的job信息

    真.总结

    其实hadoop中有个很重要的东西就是yarn。在真.配置里修改的那些有关yarn的配置文件是让hadoop变成真正的分布式系统的关键。 在这里我简单地对yarn介绍一下:

    yarn原意为“纱线”,想想我们刚才对它进行了配置让我们实现了真正的分布式配置,我顿时觉得用纱线这个名字还挺形象的,呵呵。 它是hadoop的一个资源管理器。它的资源管理和执行框架都是按master/slave范例实现——节点管理器(NM)运行、监控每个节点,并向资源管理器报告资源的可用性状态。 特定应用的执行由Master控制,负责将一个应用分割成多个Job,并和资源管理器协调执行所需的资源。资源一旦分配好,Master就和节点管理器一起安排、执行、监控独立的Job。 yarn提供了一种新的资源管理模型和执行方式,用来执行MapReduce任务。因此,在最简单的情况下,现有的MapReduce应用仍然能照原样运行(需要重新编译),yarn只不过能让开发人员更精确地指定执行参数。

    好了,我终于写完了。大家随便看看吧~

    题外话

    我蛮喜欢hadoop这个黄色小象的logo,贴出来给大家养养眼 enter image description here

    另外不知道大家在登录时有没有注意到右上角的登录帐号,见下图红框:

    enter image description here[+]查看原图

    这个dr. who可是大大有名啊~它是目前人类历史上最长的电视连续剧,英国科幻剧《神秘博士》的剧名。前不久google上还纪念过这部电视剧开播50周年。新版的dr. who从2005年开始也开播了快10年了。至于它的外传剧集《火炬木小组》在国内年轻人之中更加有名。(火炬木小组绝对是个坑,从2006年开始播,到现在也只有四季,平均每两年出一季,第一,第二季还一季20多集,从第三季开始居然只有五六集。而且到现在也没说会不会拍第五季,不过看第四季最后一集应该有续集。这片子主角杰克上校扮演者在美剧《绿箭侠》里演一号反派。第四季里那个会说上海话的黑人在夏天《星际迷航》最新电影版里也出来过,就是被可汗胁迫炸楼的那位。)

    Hadoop2.2.0多节点分布式安装及测试

  • 相关阅读:
    kafka
    yum-nginx
    expect
    ubuntu快捷方式
    10,zzlian爬取
    9-豆瓣电影
    8selenium
    7,pyquery获取数据
    6,BeautifulSoup-获取数据
    5-正则匹配获取数据
  • 原文地址:https://www.cnblogs.com/heidsoft/p/4009866.html
Copyright © 2020-2023  润新知