• Hadoop 安装之本地模式与分布式模式 北漂


    一、安装环境说明

    1、版本说明

    1、操作系统使用centos系列,建议不要使用ubuntu系列,在生成环境中,使用ubuntu系统,系统会莫名的卡死,看大数据相关的进程,发现进程处于D状态(也就是不可中断状态),处于这种模式的话,基本上除了修改内核,打补丁,只能重启系统,这对于业务来说还是很有影响的。
    2、jdk:使用1.8
    3、hadoop:默认使用hadoop2.9.2

    2、下载

    1、jdk:   下载地址:http://download.oracle.com/otn-pub/java/jdk/8u181-b13/96a7b8442fe848ef90c96a2fad6ed6d1/jdk-8u181-linux-x64.tar.gz  或者请到官网下载你自己需要的版本:http://www.oracle.com/technetwork/java/javase/downloads/index.html
    
    2、hadoop: 下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz 或者请到官网下载你所需的版本:http://hadoop.apache.org/releases.html

    3、设置主机名和IP地址的映射。

    (1)、修改主机名:
    
    #vim /etc/sysconfig/network
    
    NETWORKING=yes   #打开网络
    HOSTNAME=localhost.localdomain  #在这里修改主机名,这种方式是永久修改(建议这种方式),直接在命令行使用   hostname  主机名  这种方式是临时修改,系统重启就会失效。
    
    添加ip和主机名的映射关系
    
    #vim /etc/hosts
    
    #127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
    #::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
    192.168.4.91 master   #这一行是新添加的,master既是刚刚修改的主机名。
    
    (2)关闭防火墙和selinux
    
    关闭防火墙(centos 6.x):
    
    #/etc/init.d/iptables stop   
    
    #chkconfig  iptables off
    
    如果你是centos 7.x的系统,请使用:
    
    #systemctl stop firewalld.service
    
    #systemctl disable firewalld.service
    
    关闭selinux:
    
    #vim /etc/selinux/config
    
    把SELINUX=enforcing替换成 SELINUX=disabled
    
    (3)安装、配置jdk环境变量:
    
    #把刚才下载的jdk包放到某一个目录里面,例如我的放到/data下面
    
    #tar -zxvf jdk-8u181-linux-x64.tar.gz    #解压jdk
    
    打开/etc/profile文件   #全局配置文件
    
    export JAVA_HOME=/data/jdk1.8.0_181                          #这两行是在文件的最后添加的
    export PATH=${JAVA_HOME}/bin:$PATH
    
    # source /etc/profile     #让jdk生效
    
    #java -version   #查看jdk是否生效,如果输入如下,说明配置成功。
    
    java version "1.8.0_181"
    Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
    Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

    二、hadoop部署模式

    1、本地模式安装(各个模块运行在一台机器上,占用的jvm进程数为1)

    进入到放置hadoop源码包的目录

    #tar -zxvf hadoop-2.9.0.tar.gz

    2、运行MapReduce认证

    (1)、在本地系统创建一个文件

    #cat test.txt

    11 22 33

    22 33 44

    44 22 11

    运行hadoop自带的MapReduce程序

    #./hadoop jar /data/hadoop-2.9.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar wordcount test.txt test.out

    这里可以看到job ID中有local字样,说明是运行在本地模式下的。

    (2)查看输出的文件。在本地模式下,输出文件是在本地。

    # ll test.out

    输出目录中有_SUCCESS文件说明JOB运行成功;part-r-00000是输出结果文件,r说明是reduce产生的结果,如果是m的话,则是map阶段产生的。

    如果要查看具体的信息:

    # cat test.out/part-r-00000

    2、伪分布模式安装(多个jvm进程,单台系统)

    (1)、创建hadoop运行的用户

    #groupadd hadoop

    #useradd -g hadoop hadoop

    #passwd hadoop  #给hadoop用户设置密码。

    (2)、给hadoop用户sudo权限

    # vim  /etc/sudoers

    在root下一行添加红框这一行。

    #chmod u+w /etc/sudoers

    切换到hadoop用户

    #su - hadoop

    (3)、创建存放hadoop包的目录

    ♥   #mkdir /home/hadoop     拷贝包到这个目录下

    #cd /home/hadoop/

    #tar -zxvf  tar -zxvf hadoop-2.9.0.tar.gz

    在/etc/profile最下面追加:

    export HADOOP_HOME="/home/hadoop/hadoop-2.5.0"

    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

    #source /etc/profile    #使配置生效

    验证HADOOP_HOME参数

    #echo $HADOOP_HOME

    /home/hadoop/hadoop-2.9.0

    ♥   配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数

    修改JAVA_HOME参数配置(三个文件都要修改)

    #cd /home/hadoop/hadoop-2.9.0/etc/hadoop/

    export JAVA_HOME=/data/jdk1.8.0_181   #去掉原先的注释,修改成这样子。

    ♥  配置  core-site.xml

    在<configuration>下面添加

    fs.defaultFS参数配置的是HDFS的地址。

    <property>
    <!-- hdfs 地址 -->
    <name>fs.defaultFS</name>
    <value>hdfs://master:8020</value>
    </property>

    <!-- 指定hadoop临时目录 -->
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/hadoop-2.9.0/tmp</value>
    </property>

    hadoop.tmp.dir 是hdfs文件系统产生数据所存放的临时目录

    创建目录:

    #mkdir /home/hadoop/hadoop-2.9.0/tmp  

    ♥  配置hdfs-site.xml

    在<configuration>下面添加

    <property>
    <name>dfs.replication</name>   #这里指定hdfs产生数据时备份的机器数量,由于只有一台机器,所以为1.
    <value>1</value>
    </property>

    <property>
    <name>dfs.namenode.name.dir</name>
    <value>/home/hadoop/hadoop-2.9.0/name</value>   #指定namenode数据存放的目录
    </property>

    <property>
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/hadoop-2.9.0/data</value>  #指定datanode数据存放的目录

    </property>

    # mkdir /home/hadoop/hadoop-2.9.0/name

    # mkdir /home/hadoop/hadoop-2.9.0/data

    ♥  接下来格式化hdfs

    #./bin/hadoop namenode -format

    格式化是对HDFS这个分布式文件系统中的DataNode进行分块,统计所有分块后的初始元数据的存储在NameNode中。

    格式化后,查看core-site.xml里hadoop.tmp.dir(本例是/home/hadoop/hadoop-2.9.0/目录)指定的目录下是否有了dfs目录,如果有,说明格式化成功。

     # ll /home/hadoop/hadoop-2.9.0/name/current

     fsimage_XXX 是namenode元数据存满以后持久化到磁盘的文件。

    fsimage*.md5 是校验文件,校验fsimage的完整性。

    seen_txid 是hadoop的版本

    #cat VERSION

    namespaceID=271252846            #namenode的唯一id
    clusterID=CID-97e864b1-262d-4ce0-93d9-9dd96953ecc5          #集群id
    cTime=1533545685716
    storageType=NAME_NODE             #存储类型
    blockpoolID=BP-1051333686-192.168.4.91-1533545685716
    layoutVersion=-63

    当然,NameNode和DataNode的集群ID应该一致,表明这是一个集群,datenode的id可以到/home/hadoop/hadoop-2.9.0/data 这个目录下查看。

    ♥   启动namenode、datanode、SecondaryNameNode

    # ./sbin/hadoop-daemon.sh start namenode

    #./sbin/hadoop-daemon.sh start  datanode

    #./sbin/hadoop-daemon.sh start  secondarynamenode

    使用jps命令查看是否启动成功

    #jps

    3022 NameNode

    10578 Jps

    2099 DateNode

    12768 SecondaryNameNode

    ♥ hdfs分布式文件系统测试

    在hdfs上创建目录:

    #./bin/hadoop fs -mkdir /test

    查看目录:

    上传本地文件到hdfs:

    ./bin/hadoop fs -put wc.input /test

     从hdfs分布式文件系统上面下载文件到本地系统

    #./bin/hadoop fs -get /test/wc.put

    ♥   配置yarn

    配置 mapred-site.xml

    在 <configuration>下面添加

    <!-- 指定mr运行在yarn框架上 -->
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>

    配置yarn.site.xml

    在 <configuration>下面添加

    <property>
    <name>yarn.nodemanager.aux-services</name>     #yarn默认混洗方式

    <value>mapreduce_shuffle</value>
    </property>

    <property>
    <name>yarn.resourcemanager.hostname</name>  #指定resourcemanager的主机名称
    <value>master</value>
    </property>

    ♥启动resourcemanager

    ${HADOOP_HOME}/sbin/yarn-daemon.sh start resourcemanager

    ♥启动nodemanager

    ${HADOOP_HOME}/sbin/yarn-daemon.sh start nodemanager

    使用jps查看是否启动成功,如果有 resourcemanager  nodemanager 则说明成功。

    ♥  查看yarn的外部界面,

    如果你要在Windows里面通过主机名去访问Linux里面的主机,那么你需要在Windows的hosts主机里面添加Linux主机名和其IP地址的映射关系。

    这样才能正常从Windows浏览器通过主机名访问Linux,当然,你直接输入IP地址就不需要这一步了。

    有时候你在修改Windows 下的/etc/hosts完成以后,保存时提示没有权限,该怎么做呢:

    如图:hosts文件右键——> 安全----->指定users用户,在权限这里,把允许下面的都勾选上。

    ♥   允许MapReduce

    在本地系统创建测试用的文件

    #cat wc.put

    上传到hdfs文件系统

    # hadoop fs -put wc.put /

    运行Wordcount MapReduce job

    #cd /home/hadoop/hadoop-2.9.0

    #hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar wordcount /wc.input /wc.output

    查看输出结果

    # hadoop fs -ls /wc.output/

    有SUCCESS就代表这个job执行成功,这是一个空文件;part-r-00000既是输出结果,其中r表示是reduce阶段产生的结果,mapreduce程序执行时,可以没有reduce阶段,但是肯定会有map阶段,如果没有reduce阶段这个地方有是-m-,一个reduce会产生一个part-r-开头的文件。

    •   查看结果

    #  hadoop fs -cat /wc.output/part-r-00000

    其结果可以看出来是按照键值排好序的。

    ♥   如何停止hadoop?

    (1)一个一个进程慢慢停止  

    #./sbin/hadoop-daemon.sh stop namenode

    #./sbin/hadoop-daemon.sh stop datenode

    # ./sbin/yarn-daemon.sh stop resourcemanager

    # ./sbin/yarn-daemon.sh stop nodemanager

    (2) hadoop有一个脚本文件,可以直接停止集群,这个脚本文件分开来的话就是停止hdfs和yarn。启动整个集群也可以使用 ./sbin/start-all.sh   

    #./sbin/stop-all.sh   

    ♥   各个功能模块的介绍

    (1) yarn

    这是一个资源调度框架,在hadoop2.0中,主要就是管理整个集群资源的分配和调度,具体请查看  https://blog.csdn.net/liuwenbo0920/article/details/43304243

    (2) hdfs 

    hdfs分布式文件系统主要用来将大文件分块以后进行分布式存储数据的,突破了单台机器磁盘存储限制,这是一个相对独立的模块,能够为yarn、hbase等模块提供服务。

    (3)MapReduce

    MapReduce是一个计算框架,通过map、reduce阶段来分布式的对数据进行流处理,适用于对数据的流处理,对实时性要求高的应用不太适合,在hadoop1.0中,MapReduce是出于霸主级别,但是在hadoop2.0中,提供了一个更高效的处理引擎--spark。

    ♥   如何开启历史服务?

    (1)   #./sbin/mr-jobhistory-daemon.sh start historyserver

    开启以后通过web界面可以查看,点开下图的history,可以查看历史信息。

    历史服务器的端口是19888.

    ♥  如果想在web界面查看日志该如何做呢?那就是开启日志聚集,日志聚集是在yarn框架的,所以在配置的时候是在yarn.site.xml文件里面配置

    (1)日志聚集介绍

    MapReduce是在各个机器上运行的,在运行过程中产生的日志存在于各个机器上,为了能够统一查看各个机器的运行日志,将日志集中存放在HDFS上,这个过程就是日志聚集。

    (2)日志聚集默认是未开启的,通过配置yarn.site.xml来开启。

    <property>
    <name>yarn.log-aggregation-enable</name>     #  是否开启日志聚集
    <value>true</value>
    </property>
    <property>
    <name>yarn.log-aggregation.retain-seconds</name>  #日志保存时间,以秒为单位。
    <value>106800</value>          
    </property>

    (3)配置完以后重启yarn进程

    # stop-yarn.sh

    # start-yarn.sh

    (4)现在就可以去web界面查看map、reduce阶段产生的日志。

    当然,在执行这一步的时候,是因为我们上面刚刚跑过MapReduce程序,如果你没有跑MapReduce,则这个界面不会有这些信息。

    如果是在完全分布式或者ha完全分布式集群里面,当配置完成以后,需要把配置文件拷贝到其他节点在重新启动yarn进程。

    下节在记录hadoop完全分布式安装、ha、以及Federation (联邦)。

    *** 刚开始写博文,可能还有很多需要改进的地方,望见谅***

  • 相关阅读:
    【SQL Server性能优化】SQL Server 2008之表压缩
    SQL Server 锁的排队机制
    通过DAC来连接SQL Server
    通过SQL Server的数据库邮件功能功能发送邮件
    【SQL 编程你也行】BOM按节点排序
    【SQL Server数据迁移】32位的机器:SQL Server中查询ORACLE的数据
    《女孩梦三十》
    在论坛中出现的比较难的sql问题:26(动态行专列+合并字符串、补足行数)
    【SQL Server高可用性】数据库镜像:同一台机器的两个不同实例上配置数据库镜像 + 另一台见证服务器
    【SQL Server高可用性】数据库复制:修改表结构、新增表、新增存储过程 会被复制到订阅服务器?
  • 原文地址:https://www.cnblogs.com/yjt1993/p/9472877.html
Copyright © 2020-2023  润新知