Hadoop集群搭建（3）

Hadoop安装

与zookeeper大体一致

1. 上传并解压

上传压缩包到/export/software目录
cd /export/software
tar xzvf hadoop-3.1.1.tar.gz -C ../servers

#####2. 修改配置文件

配置文件的位置在 hadoop/etc/hadoop

######core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://bigdata1:8020</value>
    </property>
    <!-- 临时文件存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/export/servers/hadoop-3.1.1/datas/tmp</value>
    </property>
    <!--  缓冲区大小，实际工作中根据服务器性能动态调整 -->
    <property>
        <name>io.file.buffer.size</name>
        <value>8192</value>
    </property>
    <!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
    <property>
        <name>fs.trash.interval</name>
        <value>10080</value>
    </property>
</configuration>

######hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

######hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/namenode/namenodedatas</value>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>134217728</value>
    </property>
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>10</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/datanode/datanodeDatas</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>bigdata1:50070</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>dfs.namenode.checkpoint.edits.dir</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/dfs/nn/snn/edits</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>bigdata1.hadoop.com:50090</value>
    </property>
    <property>
        <name>dfs.namenode.edits.dir</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/dfs/nn/edits</value>
    </property>
    <property>
        <name>dfs.namenode.checkpoint.dir</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/dfs/snn/name</value>
    </property>
</configuration>

######mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx512M</value>
    </property>
    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx512M</value>
    </property>
    <property>
        <name>mapreduce.task.io.sort.mb</name>
        <value>256</value>
    </property>
    <property>
        <name>mapreduce.task.io.sort.factor</name>
        <value>100</value>
    </property>
    <property>
        <name>mapreduce.reduce.shuffle.parallelcopies</name>
        <value>25</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>bigdata1.hadoop.com:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>bigdata1.hadoop.com:19888</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.intermediate-done-dir</name>
        <value>/export/servers/hadoop-3.1.1/datas/jobhsitory/intermediateDoneDatas</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.done-dir</name>
        <value>/export/servers/hadoop-3.1.1/datas/jobhsitory/DoneDatas</value>
    </property>
    <property>
      <name>yarn.app.mapreduce.am.env</name>
      <value>HADOOP_MAPRED_HOME=/export/servers/hadoop-3.1.1</value>
    </property>
    <property>
      <name>mapreduce.map.env</name>
      <value>HADOOP_MAPRED_HOME=/export/servers/hadoop-3.1.1/</value>
    </property>
    <property>
      <name>mapreduce.reduce.env</name>
      <value>HADOOP_MAPRED_HOME=/export/servers/hadoop-3.1.1</value>
    </property>
</configuration>

######yarn-site.xml

<configuration>
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>100</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>bigdata1:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>bigdata1:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>bigdata1:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>bigdata1:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>bigdata1:8088</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>bigdata1</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
    <!-- 设置不检查虚拟内存的值，不然内存不够会报错 -->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/nodemanager/nodemanagerDatas</value>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>file:///export/servers/hadoop-3.1.1/datas/nodemanager/nodemanagerLogs</value>
    </property>
    <property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>10800</value>
    </property>
    <property>
        <name>yarn.nodemanager.remote-app-log-dir</name>
        <value>/export/servers/hadoop-3.1.1/datas/remoteAppLog/remoteAppLogs</value>
    </property>
<property>
<name>yarn.nodemanager.remote-app-log-dir-suffix</name>
<value>logs</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>18144000</value>
</property>
<property>
<name>yarn.log-aggregation.retain-check-interval-seconds</name>
<value>86400</value>
</property>
<!-- yarn上面运行一个任务，最少需要1.5G内存，虚拟机没有这么大的内存就调小这个值，不然会报错 -->
<property>
        <name>yarn.app.mapreduce.am.resource.mb</name>
        <value>1024</value>
</property>
</configuration>

######worker

bigdata1
bigdata2
bigdata3

3. 创建数据和临时文件夹

mkdir -p /export/servers/hadoop-3.1.1/datas/tmp
mkdir -p /export/servers/hadoop-3.1.1/datas/dfs/nn/snn/edits
mkdir -p /export/servers/hadoop-3.1.1/datas/namenode/namenodedatas
mkdir -p /export/servers/hadoop-3.1.1/datas/datanode/datanodeDatas
mkdir -p /export/servers/hadoop-3.1.1/datas/dfs/nn/edits
mkdir -p /export/servers/hadoop-3.1.1/datas/dfs/snn/name
mkdir -p /export/servers/hadoop-3.1.1/datas/jobhsitory/intermediateDoneDatas
mkdir -p /export/servers/hadoop-3.1.1/datas/jobhsitory/DoneDatas
mkdir -p /export/servers/hadoop-3.1.1/datas/nodemanager/nodemanagerDatas
mkdir -p /export/servers/hadoop-3.1.1/datas/nodemanager/nodemanagerLogs
mkdir -p /export/servers/hadoop-3.1.1/datas/remoteAppLog/remoteAppLogs

4. 分发安装包到其它机器

cd /export/servers
scp -r hadoop-3.1.1/ bigdata2:$PWD
scp -r hadoop-3.1.1/ bigdata3:$PWD

5. 在每个节点配置环境变量

vi /etc/profile

export HADOOP_HOME=/export/servers/hadoop-3.1.1/
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

6. 格式化HDFS

为什么要格式化HDFS
- HDFS需要一个格式化的过程来创建存放元数据(image, editlog)的目录

bin/hdfs namenode -format

7. 启动集群

# 会登录进所有的worker启动相关进行, 也可以手动进行, 但是没必要
/export/servers/hadoop-3.1.1/sbin/start-dfs.sh
/export/servers/hadoop-3.1.1/sbin/start-yarn.sh
mapred --daemon start historyserver

相关阅读:
Python Tkinter 鼠标和按键事件
 Python pip Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available.")
Python生成器的推导式
 解决PLSQL developer中文乱码问题
 关于投资的思考(63) 当你认知升级的速度超过了社会进化的速度才有优势
 关于投资的思考(67) 读书的意义、世界上最贵的十大手表、一年顶十年
 关于投资的思考(60) 为什么悟性高的人，很难赚到大钱？任何时候都有机会上车
 关于投资的思考(62) 坚持做长线价值投资，Web3趋势，知识星球
 关于投资的思考(61) 介绍几个硬核估值方法和波段梭哈利器，MVRV，NVT，梅特卡夫定律估值，拟合估值定投比值，恐惧贪婪指数
 关于投资的思考(65) 马斯克的B计划和狗狗，降低持有成本的方法
原文地址：https://www.cnblogs.com/aiyyue/p/13792843.html