hadoop单节点伪集群

相关软件

软件/系统	版本	描述/地址
Hadoop	3.1.2	下载地址：https://hadoop.apache.org/releases.html
jdk	1.8	版本兼容：https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions
centos	7.6_64

安装jdk

上传jdk并安装
    rpm -ivh jdk-8u211-linux-x64.rpm
配置环境变量
在/etc/profle文件中添加或修改
    export  JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
    export  PATH=$PATH:$JAVA_HOME/bin
使环境变量生效
    source  /etc/profile
验证java
    java -version

安装hadoop

1》上传hadoop-3.1.2.tar.gz至/opt目录兵解压
    $ tar -zxvf  hadoop-3.1.2.tar.gz
2》修改配置文件hadoop-env.sh (在第54行)
    $ vim /opt/hadoop-3.1.2/etc/Hadoop/hadoop-env.sh  +54  
　    　　export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
3》配置环境变量
   修改配置文件/etc/profile,新增/追加如下
    # export hadoop_home=/opt/hadoop-3.1.2             #新增
    #export PATH=$PATH:$JAVA_HOME/bin:$hadoop_home/bin #追加
执行source  /etc/profile使环境变量生效

设置免密登录（单节点也需要）

1 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
2 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3 chmod 0600 ~/.ssh/authorized_keys

修改配置文件core-site.xml

vim /opt/hadoop-3.1.2/etc/Hadoop/core-site.xml

在<configuration>字段内增加如下,(配置文件中的存储路径可自定义)

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
       <value>/opt/doufy/tmp/hadoop</value>
     </property>
</configuration>

修改配置文件hdfs-site.xml:

vim /opt/hadoop-3.1.2/etc/Hadoop/hdfs-site.xml

在<configuration>字段内增加如下

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

改配置文件mapred-site.xml:

vim /opt/hadoop-3.1.2/etc/Hadoop/mapred-site.xml

在<configuration>字段内增加如下

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>             
　　　　<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

修改配置文件yarn-site.xml:

vim /opt/hadoop-3.1.2/etc/Hadoop/yarn-site.xml

在<configuration>字段内增加如下

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

格式化文件系统

会在预配置文件(core-site.xml)的路径下生成一系列文件

1 # hdfs namenode -format

常用命令

https://hadoop.apache.org/docs/r3.1.2/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
官方文档先看着吧，后续慢慢补充

启动NameNode守护进程和DataNode守护进程

1 #/opt/hadoop-3.1.2/sbin/start-dfs.sh
2 #/opt/hadoop-3.1.2/sbin/start-yarn.sh
访问地址：
　NameNode的Web界面　         http://IP:9870/
  ResourceManager的Web界面   http://IP:8088/

Root用户会报错，解决方法如下

处理1 
vim sbin/start-dfs.sh 
vim sbin/stop-dfs.sh 
两处增加以下内容 
HDFS_DATANODE_USER=root 
HADOOP_SECURE_DN_USER=hdfs 
HDFS_NAMENODE_USER=root 
HDFS_SECONDARYNAMENODE_USER=root 
处理2 
vim sbin/start-yarn.sh 
vim sbin/stop-yarn.sh 
两处增加以下内容 
YARN_RESOURCEMANAGER_USER=root 
HADOOP_SECURE_DN_USER=yarn 
YARN_NODEMANAGER_USER=root

相关阅读:
Python 读取Excel之xlrd篇
 Python读取文件基本方法
 Python 偏函数用法全方位解析
 如何表示只有一个元素的元祖
 Python对文本读写的操作方法【源码】
jvm入门及理解（六）——垃圾回收与算法
 jvm入门及理解（五）——运行时数据区（虚拟机栈）
jvm入门及理解（四）——运行时数据区（堆+方法区）
jvm入门及理解（三）——运行时数据区（程序计数器+本地方法栈）
jvm入门及理解（二）——类加载器子系统
原文地址：https://www.cnblogs.com/doufy/p/10978818.html