• Ubuntu16.04 install hadoop-2.8.1.tar.gz 伪分布式


    1.安装SSH server、免密码ssh设置
    sudo apt-get install openssh-server

    现在确认能否不输入口令就用ssh登录localhost:
    ssh localhost

    如果不输入口令就无法用ssh登陆localhost,执行下面的命令:

      ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
      cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      chmod 0600 ~/.ssh/authorized_keys


    2.Hadoop的安装

    http://hadoop.apache.org/releases.html 选择 binary

    tar zxvf hadoop-2.8.1.tar.gz

    sudo mv hadoop-2.8.1 /opt/hadoop

    cd /etc/profile.d

    sudo vim hdfs-env.sh

    export HADOOP_HOME=/opt/hadoop
    export HADOOP_CONF_DIR=/etc/hadoop/
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_YARN_HOME=$HADOOP_HOME
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    echo $HADOOP_HOME

    echo $PATH
    source hdfs-env.sh

    echo $HADOOP_HOME

    echo $PATH
    hadoop version



    3.伪分布式配置

    cd /opt/hadoop/etc

    sudo mv hadoop /etc


    sudo mkdir -p /data/hadoop/tmp
    sudo mkdir -p /data/hadoop/dfs/name

    sudo mkdir -p /data/hadoop/dfs/data
    sudo chown -R donny:donny /data


    hdfs配置:

    vim etc/hadoop/hdoop-env.sh

    export JAVA_HOME=/opt/jdk

    core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。
    vim etc/hadoop/core-site.xml
    <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/data/hadoop/tmp</value>
            <description>Abase for other temporary directories.</description>
        </property>
        <property>
            <name>fs.default.name</name>
            <value>hdfs://localhost:9000</value>
        </property>
        <property>
            <name>io.file.buffer.size</name>
            <value>131072</value>
        </property>
    </configuration>

    hdfs-site.xml 文件中包含如复制数据的值,NameNode路径的信息,,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方。
    vim etc/hadoop/hdfs-site.xml
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/data/hadoop/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/data/hadoop/dfs/data</value>
        </property>
        <property>
            <name>dfs.webhdfs.enabled</name>
            <value>true</value>
        </property>
    </configuration>

    mapred-site.xml用于指定正在使用MapReduce框架。缺省情况下,包含Hadoop的模板yarn-site.xml。首先,它需要从mapred-site.xml复制。获得mapred-site.xml模板文件使用以下命令。
    mapreduce配置:
    cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
    vim etc/hadoop/mapred-site.xml
    <configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
          <property>
              <name>mapreduce.jobhistory.address</name>
              <value>localhost:10020</value>  
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>localhost:19888</value>
        </property>
    </configuration>

    yarn-site.xml配置成yarn在Hadoop中
    vim etc/hadoop/yarn-site.xml
    <configuration>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>localhost</value>
        </property>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
    </configuration>

    格式化 hdfs namenode -format

    1. 第一种方式

      启动:分别启动HDFS和MapReduce

      命令如下:start-dfs.sh start-yarn.sh

      命令如下:stop-dfs.sh stop-yarn.sh

    2. 第二种方式

      全部启动或者全部停止

      启动:

      命令:start-all.sh

      启动顺序:NameNode,DateNode,SecondaryNameNode,JobTracker,TaskTracker

       

      停止:

      命令:stop-all.sh

      关闭顺序性:JobTracker,TaskTracker,NameNode,DateNode,SecondaryNameNode

    3. 第三种方式

      hadoop-daemon.sh start namenode

      如果namenode还做datanode则执行hadoop-daemon.sh start datanode

      yarn-daemon.sh start nodemanager
      mr-jobhistory-daemon.sh start historyserver
      yarn-daemon.sh start resourcemanager


    访问http://localhost:50070 查看节点信息。
    不启用 YARN 时,是 “mapred.LocalJobRunner” 在跑任务,启用 YARN 之后,是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况:http://localhost:8088/cluster 。

  • 相关阅读:
    和老外交流最常用1000句口语 (一)
    flash自定义右键菜单
    和老外交流最常用1000句口语 (二)
    EBS默认的登录账户和密码
    实例13. 库存补充操作——最小最大计划(MinMax Planning)
    EBS R12常用数据表
    Oracle 软件的行业划分 和 Oracle 公司内部职业划分
    在Org Parameter设置Subinventory Account
    物流(Logistics)的概念
    实例12. 库存补充操作——看板补充(Kanban Replenishment)
  • 原文地址:https://www.cnblogs.com/DowneyJr/p/7623942.html
Copyright © 2020-2023  润新知