Ubuntu16.04 install hadoop-2.8.1.tar.gz 伪分布式

Ubuntu16.04 install hadoop-2.8.1.tar.gz 伪分布式
1.安装SSH server、免密码ssh设置
sudo apt-get install openssh-server

现在确认能否不输入口令就用ssh登录localhost:
ssh localhost

如果不输入口令就无法用ssh登陆localhost，执行下面的命令：
```
  ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  chmod 0600 ~/.ssh/authorized_keys
```
2.Hadoop的安装

http://hadoop.apache.org/releases.html 选择 binary

tar zxvf hadoop-2.8.1.tar.gz

sudo mv hadoop-2.8.1 /opt/hadoop

cd /etc/profile.d

sudo vim hdfs-env.sh

export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=/etc/hadoop/
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

echo $HADOOP_HOME

echo $PATH
source hdfs-env.sh

echo $HADOOP_HOME

echo $PATH
hadoop version

3.伪分布式配置

cd /opt/hadoop/etc

sudo mv hadoop /etc
```
sudo mkdir -p /data/hadoop/tmp
sudo mkdir -p /data/hadoop/dfs/name
sudo mkdir -p /data/hadoop/dfs/data
sudo chown -R donny:donny /data
```
hdfs配置:

vim etc/hadoop/hdoop-env.sh

export JAVA_HOME=/opt/jdk

core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息，分配给文件系统存储，用于存储所述数据存储器的限制和大小。
vim etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/data/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

hdfs-site.xml 文件中包含如复制数据的值，NameNode路径的信息，，本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方。
vim etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/data/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/data/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

mapred-site.xml用于指定正在使用MapReduce框架。缺省情况下，包含Hadoop的模板yarn-site.xml。首先，它需要从mapred-site.xml复制。获得mapred-site.xml模板文件使用以下命令。
mapreduce配置:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
<configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
      <property>
          <name>mapreduce.jobhistory.address</name>
          <value>localhost:10020</value>
    </property>
    <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>localhost:19888</value>
    </property>
</configuration>

yarn-site.xml配置成yarn在Hadoop中
vim etc/hadoop/yarn-site.xml
<configuration>
   <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>localhost</value>
   </property>
   <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>
</configuration>

格式化 hdfs namenode -format
1. 第一种方式
  
  启动：分别启动HDFS和MapReduce
  
  命令如下：start-dfs.sh start-yarn.sh
  
  命令如下：stop-dfs.sh stop-yarn.sh
2. 第二种方式
  
  全部启动或者全部停止
  
  启动：
  
  命令：start-all.sh
  
  启动顺序：NameNode，DateNode，SecondaryNameNode，JobTracker，TaskTracker
  
  停止：
  
  命令：stop-all.sh
  
  关闭顺序性：JobTracker，TaskTracker，NameNode，DateNode，SecondaryNameNode
3. 第三种方式
  
  hadoop-daemon.sh start namenode
  
  如果namenode还做datanode则执行hadoop-daemon.sh start datanode
  
  yarn-daemon.sh start nodemanager
  mr-jobhistory-daemon.sh start historyserver
  yarn-daemon.sh start resourcemanager
访问http://localhost:50070 查看节点信息。
不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况：http://localhost:8088/cluster 。
相关阅读:
和老外交流最常用1000句口语（一）
flash自定义右键菜单
 和老外交流最常用1000句口语（二）
EBS默认的登录账户和密码
 实例13. 库存补充操作——最小最大计划（MinMax Planning）
EBS R12常用数据表
 Oracle 软件的行业划分和 Oracle 公司内部职业划分
 在Org Parameter设置Subinventory Account
物流(Logistics)的概念
 实例12. 库存补充操作——看板补充（Kanban Replenishment）
原文地址：https://www.cnblogs.com/DowneyJr/p/7623942.html