• Hadoop 学习笔记(二)Hadoop 本地运行环境搭建及简单应用


    上篇文章对Hadoop 作了简单介绍,下面我们来试着在 虚拟机上安装 Hadoop;

    一、虚拟机准备

    生产环境 Hadoop 集群在 N 个节点上工作,但是今天学习阶段我准备了 1 台虚拟机进行模拟学习本地模式;

    我使用的是:VMware Workstation Pro 软件,将事先准备好的虚拟机克隆一台;

    1.    克隆虚拟机                                                      

    2.    修改克隆虚拟机的静态IP

    3.    修改主机名

    vi /etc/sysconfig/network
    文件中内容
    NETWORKING=yes
    NETWORKING_IPV6=no
    HOSTNAME= hadoop100
    注意:主机名称不要有“_”下划线192.168.1.100 hadoop100
    192.168.1.101 hadoop101
    192.168.1.102 hadoop102
    192.168.1.103 hadoop103
    192.168.1.104 hadoop104
    192.168.1.105 hadoop105
    192.168.1.106 hadoop106
    192.168.1.107 hadoop107
    192.168.1.108 hadoop108
    开/etc/hosts

    4.    关闭防火墙

    [hui@hadoop102 hadoop-2.7.2]$ service iptables start
    [hui@hadoop102 hadoop-2.7.2]$  service iptables stop

    5.    创建 hui 用户

    6.    配置 hui 用户具有root权限

    7.在/opt目录下创建文件夹

    (1)在/opt目录下创建module、software文件夹

    sudo mkdir module
    sudo mkdir software
    #修改目录归属用户组
    sudo chown hui:hui module/  drwxr
    -xr-x. 5 hui hui 4096 9月 9 07:36 module drwxrwxr-x. 6 root root 4096 9月 8 2015 redis-3.0.4 drwxr-xr-x. 3 hui hui 4096 2月 9 2020 software

    二、安装 JDK 

    首先确认 虚机是否已安装 JDK

    [hui@hadoop102 opt]$ rpm -qa | grep java

    如 虚机已安装低于 JDK 1.7 版本的 JDK,则需要卸载重新安装;

     sudo rpm -e 软件包

    使用 WinSCP 上传事先准备好的 JDK 安装包,并解压到指定路径:

     tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

    配置 JDK 环境变量:

    [hui@hadoop102 jdk1.8.0_144]$ pwd
    /opt/module/jdk1.8.0_144
    sudo vi /etc/profile
    #JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_144
    export PATH=$PATH:$JAVA_HOME/bin

    source /etc/profile

    最后验证 JDK 安装是否成功:

    [hui@hadoop102 jdk1.8.0_144]$ java -version
    java version "1.8.0_144"
    Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
    Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)
    [hui@hadoop102 jdk1.8.0_144]$ echo $JAVA_HOME
    /opt/module/jdk1.8.0_144

    三、安装 Hadoop

    首先 通过 WinSCP  上传已经准备好的  hadoop-2.7.2.tar.gz 

     然后对 安装包进行解压:

     tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

    配置环境变量:

    [hui@hadoop102 hadoop-2.7.2]$ pwd
    /opt/module/hadoop-2.7.2
    [hui@hadoop102 hadoop-2.7.2]$ sudo vi /etc/profile
    ##HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-2.7.2
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    [hui@ hadoop102 hadoop-2.7.2]$ source /etc/profile
    [hui@hadoop102 hadoop-2.7.2]$ hadoop version
    Hadoop 2.7.2

    查看 Hadoop 目录结构:

    [hui@hadoop102 hadoop-2.7.2]$ ll
    总用量 72
    drwxr-xr-x. 2 hui wd  4096 5月  22 2017 bin
    drwxr-xr-x. 3 hui wd  4096 2月   8 2020 data
    drwxr-xr-x. 3 hui wd  4096 5月  22 2017 etc
    drwxr-xr-x. 2 hui wd  4096 5月  22 2017 include
    drwxr-xr-x. 2 hui wd  4096 2月   8 2020 input
    drwxr-xr-x. 3 hui wd  4096 5月  22 2017 lib
    drwxr-xr-x. 2 hui wd  4096 5月  22 2017 libexec
    -rw-r--r--. 1 hui wd 15429 5月  22 2017 LICENSE.txt
    drwxr-xr-x. 3 hui wd  4096 2月   9 2020 logs
    -rw-r--r--. 1 hui wd   101 5月  22 2017 NOTICE.txt
    -rw-r--r--. 1 hui wd  1366 5月  22 2017 README.txt
    drwxr-xr-x. 2 hui wd  4096 5月  22 2017 sbin
    drwxr-xr-x. 4 hui wd  4096 5月  22 2017 share
    drwxr-xr-x. 2 hui wd  4096 2月   8 2020 wcinput
    drwxr-xr-x. 2 hui wd  4096 2月   8 2020 wcoutput

    目录说明:

    1. bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本;
    2. etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件;
    3. lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能);
    4. sbin目录:存放启动或停止Hadoop相关服务的脚本;
    5. share目录:存放Hadoop的依赖jar包、文档、和官方案例;

    四、运行 wordCount 案例

    首先 创建 wcinput 文件夹,用于存放 输入文件

    [hui@hadoop102 hadoop-2.7.2]$ pwd
    /opt/module/hadoop-2.7.2
    [hui@hadoop102 hadoop-2.7.2]$ mkdir wcinput

    创建,输入文件,并输入些单词:

    [hui@hadoop102 wcinput]$ cat wc.input 
    tianyi huichao lihua
    zhangchen xiaoheng 
    xinbo xinbo
    gaoyang gaoyang yanjing yanjing 

    启动程序:

    [hui@hadoop102 hadoop-2.7.2]$ pwd
    /opt/module/hadoop-2.7.2
    [hui@hadoop102 hadoop-2.7.2]$ hadoop jar
     share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

    查看结果:

    [hui@hadoop102 hadoop-2.7.2]$ cd wcoutput/
    [hui@hadoop102 wcoutput]$ ll
    -rw-r--r--. 1 hui wd 78 2月   8 2020 part-r-00000
    -rw-r--r--. 1 hui wd  0 2月   8 2020 _SUCCESS
    [hui@hadoop102 wcoutput]$ cat part-r-00000
    gaoyang 2
    huichao 1
    lihua   1
    tianyi  1
    xiaoheng        1
    xinbo   2
    yanjing 2
    zhangchen       1
    [hui@hadoop102 wcoutput]$ 
  • 相关阅读:
    Spark开发环境搭建(IDEA、Scala、SVN、SBT)
    Spark源码系列:RDD repartition、coalesce 对比
    Scala:类和对象
    申请MS的FastCounter
    code generation part1some OOrelated topic! not completed
    [book]ADO.NET实用指南
    如果FC能把blog的WEB VIEW与AGG VIEW统计起来就方便多了
    Dell 1704
    O'Reilly .NET Framework Essentials, 2nd Edition
    单用户blog系统(一)
  • 原文地址:https://www.cnblogs.com/wdh01/p/13789363.html
Copyright © 2020-2023  润新知