• Hadoop伪分布模式配置部署


    、实验环境说明

    • 注意:本实验需要按照上一节单机模式部署后继续进行操作

    1. 环境登录

    无需密码自动登录,系统用户名 shiyanlou,密码 shiyanlou

    2. 环境介绍

    本实验环境采用带桌面的 Ubuntu Linux 环境,实验中会用到桌面上的程序:

    • XfceTerminal:Linux 命令行终端,打开后会进入 Bash 环境,可以使用 Linux 命令
    • Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的 HTML/JS 页面即可
    • GVim:非常好用的编辑器,最简单的用法可以参考课程 Vim 编辑器

    3. 环境使用

    使用GVim编辑器输入实验所需的代码,然后使用XfceTerminal命令行环境进行编译运行,查看运行结果,运行后可以截图并分享自己的实验成果,实验楼提供的截图是后台截图,无法作弊,可以真实有效证明您已经完成了实验。

    实验记录页面可以在“我的课程”中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。

    4. 参考文档

    本实验参考下列文档内容制作:

    二、Hadoop伪分布式模式配置

    注意:本实验需要按照上一节单机模式部署后继续进行操作,因此您必须先完成上一节实验。

    1. 相关配置文件修改

    1).修改core-site.xml:

    $ sudo gvim /usr/local/hadoop/etc/hadoop/core-site.xml
    
    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
        <property>
            <name>fs.default.name</name>
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/hadoop/tmp</value>
       </property>
    </configuration>
    

    常用配置项说明:

    • fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
    • hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}这个路径中

    更多说明请参考core-default.xml,包含配置文件所有配置项的说明和默认值。

    2).修改hdfs-site.xml:

    $ sudo gvim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
    
    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    

    常用配置项说明:

    • dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
    • dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
    • dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。

    更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。

    3).修改mapred-site.xml:

    $ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
    $ sudo gvim /usr/local/hadoop/etc/hadoop/mapred-site.xml
    
    <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    
    <!-- Put site-specific property overrides in this file. -->
    
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

    常用配置项说明:

    • mapred.job.trackerJobTracker的主机(或者IP)和端口。

    更多说明请参考mapred-default.xml,包含配置文件所有配置项的说明和默认值

    4).修改yarn-site.xml:

    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
            <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
    </configuration>
    

    常用配置项说明:

    • yarn.nodemanager.aux-services通过该配置,用户可以自定义一些服务

    更多说明请参考yarn-default.xml,包含配置文件所有配置项的说明和默认值

    5). 修改 hadoop-env.sh:

    $ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
    

    修改 JAVA_HOME 如下:

    图片描述信息

    这样简单的伪分布式模式就配置好了。

    三、格式化HDFS文件系统

    在使用hadoop前,必须格式化一个全新的HDFS安装,通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态的加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。

    1.先切换到hadoop账户,按照提示输入账户密码

    $ su hadoop
    

    2.格式化HDFS文件系统

    $ hadoop namenode -format
    

    会输出如下信息,则表格式化HDFS成功:

    DEPRECATED: Use of this script to execute hdfs command is deprecated.
    Instead use the hdfs command for it.
    
    INFO namenode.NameNode: STARTUP_MSG:
    /************************************************************
    STARTUP_MSG: Starting NameNode
    STARTUP_MSG:   host = [你的主机名]/127.0.0.1
    STARTUP_MSG:   args = [-format]
    STARTUP_MSG:   version = 2.4.1
    ...
    ...
    INFO util.ExitUtil: Exiting with status 0
    INFO namenode.NameNode: SHUTDOWN_MSG:
    /************************************************************
    SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1
    ************************************************************/
    

    四、Hadoop集群启动

    1.启动hdfs守护进程,分别启动NameNode和DataNode

    $ hadoop-daemon.sh start namenode
    $ hadoop-daemon.sh start datanode
    

    或者一次启动

    $ start-dfs.sh
    

    输出如下(可以看出分别启动了namenode, datanode, secondarynamenode,因为我们没有配置secondarynamenode,所以地址为0.0.0.0):

    Starting namenodes on []
    hadoop@localhost's password:
    localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.out
    hadoop@localhost's password:
    localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.out
    localhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.
    localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.
    Starting secondary namenodes [0.0.0.0]
    hadoop@0.0.0.0's password:
    0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out
    

    2.启动yarn,使用如下命令启ResourceManager和NodeManager:

    $ yarn-daemon.sh start resourcemanager
    $ yarn-daemon.sh start nodemanager
    

    或者一次启动:

    $ start-yarn.sh
    

    3.检查是否运行成功

    打开浏览器

    • 输入:http://localhost:8088进入ResourceManager管理页面
    • 输入:http://localhost:50070进入HDFS页面

    六、测试验证

    测试验证还是使用上一节的 WordCount。

    不同的是,这次是伪分布模式,使用到了 hdfs,因此我们需要把文件拷贝到 hdfs 上去。

    首先创建相关文件夹(要一步一步的创建):

    $ hadoop dfs -mkdir /user
    $ hadoop dfs -mkdir /user/hadoop
    $ hadoop dfs -mkdir /user/hadoop/input
    

    1.创建输入的数据,采用/etc/protocols文件作为测试

    先将文件拷贝到 hdfs 上:

    $ hadoop dfs -put /etc/protocols /user/hadoop/input
    

    图片描述信息

    2.执行Hadoop WordCount应用(词频统计)

    # 如果存在上一次测试生成的output,由于hadoop的安全机制,直接运行可能会报错,所以请手动删除上一次生成的output文件夹
    $ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output
    

    执行过程截图(部分):

    图片描述信息

    3.查看生成的单词统计数据

    $ hadoop dfs -cat /user/hadoop/output/*
    

    图片描述信息

    七、关闭服务

    输入命令

    $ hadoop-daemon.sh stop namenode
    $ hadoop-daemon.sh stop datanode
    $ yarn-daemon.sh stop resourcemanager
    $ yarn-daemon.sh stop nodemanager
    

    或者

    $ stop-dfs.sh
    $ stop-yarn.sh
    

    最后一步:点击屏幕上方的“实验截图”将上述命令执行后的截图保存并分享给朋友们吧,这是你学习Hadoop安装的证明。

    八、小结

    本实验讲解如何在单机模式下继续部署Hadoop为伪分布模式。

    九、思考题

    伪分布模式和单机模式配置上的区别主要是哪些?是否可以推论出如何部署真实的分布式Hadoop环境?

  • 相关阅读:
    将数组转换为对象
    react常见组件问题Can't perform a React state update on an unmounted component
    React定位到滚动条底部
    React使用定时器interval
    CSS 如何做到隐藏滚动条的同时可以滚动
    css实现字母或数字强制换行
    如何让div的滚动条在上下左右都出现
    js学习
    JavaScript介绍
    前端跨域
  • 原文地址:https://www.cnblogs.com/yeahwell/p/4546196.html
Copyright © 2020-2023  润新知