• 五十九.大数据、Hadoop 、 Hadoop安装与配置 、 HDFS


    1.安装Hadoop
    单机模式安装Hadoop
    安装JAVA环境
    设置环境变量,启动运行
     
    1.1 环境准备
     
    1)配置主机名为nn01,ip为192.168.1.21,配置yum源(系统源)
    备注:由于在之前的案例中这些都已经做过,这里不再重复.
     
    2)安装java环境
    nn01 ~]# yum -y install java-1.8.0-openjdk-devel
    nn01 ~]# java -version
    openjdk version "1.8.0_131"
    OpenJDK Runtime Environment (build 1.8.0_131-b12)
    OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
    [root@nn01 ~]# jps
    1322 Jps
     
    3)安装hadoop
    nn01 ~]# tar -xf hadoop-2.7.6.tar.gz
    nn01 ~]# mv hadoop-2.7.6 /usr/local/hadoop
    nn01 ~]# cd /usr/local/hadoop/
    hadoop]# ls
    bin  include  libexec       NOTICE.txt  sbin
    etc  lib      LICENSE.txt  README.txt  share
     
    hadoop]# ./bin/hadoop   //报错,JAVA_HOME没有找到
     
    4)解决报错问题
    hadoop]# rpm -ql java-1.8.0-openjdk
    hadoop]# cd ./etc/hadoop/
    hadoop]# vim hadoop-env.sh
    25 export  
    JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
    33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
     
    nn01 ~]# cd /usr/local/hadoop/
    hadoop]# ./bin/hadoop
    Usage:...
    hadoop]# mkdir /usr/local/hadoop/aa
    hadoop]# cp *.txt /usr/local/hadoop/aa
    hadoop]# ./bin/hadoop jar  
    share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb
    //wordcount为参数 统计aa这个文件夹,存到bb这个文件里面(这个文件不能存在,要是存在会报错,是为了防止数据覆盖)
    hadoop]# cat bb/part-r-00000   //查看
     
    2. 安装配置Hadoop
     
    另备三台虚拟机,安装Hadoop
    使所有节点能够ping通,配置SSH信任关系
    节点验证
    node1 192.168.1.22
    node2 192.168.1.23
    node3 192.168.1.24
     
    2.1 环境准备
     
    1)三台机器配置主机名为node1、node2、node3,配置ip地址
    2)编辑/etc/hosts(四台主机同样操作,以nn01为例)
    [root@nn01 ~]# vim /etc/hosts
    192.168.1.21  nn01
    192.168.1.22  node1
    192.168.1.23  node2
    192.168.1.24  node3
     
    3)安装java环境,在node1,node2,node3上面操作(以node1为例)
    node1 ~]# yum -y install java-1.8.0-openjdk-devel
     
    4)布置SSH信任关系
    //第一次登陆不需要输入yes
    nn01 ~]# vim /etc/ssh/ssh_config
    Host *
            GSSAPIAuthentication yes
            StrictHostKeyChecking no
    nn01 ~]# ssh-keygen(一路回车)
    nn01 ~]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done 
    //部署公钥给nn01,node1,node2,node3
     
    5)测试信任关系
    nn01 ~]# ssh node1
    node1 ~]# exit
     
    2.2 配置hadoop
     
    1)修改slaves文件
    [root@nn01 ~]# cd /usr/local/hadoop/etc/hadoop
    hadoop]# vim slaves
    node1
    node2
    node3
     
    2)hadoop的核心配置文件core-site
    hadoop]# vim core-site.xml
    <configuration>
    <property>
            <name>fs.defaultFS</name>
            <value>hdfs://nn01:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/var/hadoop</value>
        </property>
    </configuration>
     
    hadoop]# mkdir /var/hadoop        //hadoop的数据根目录
    hadoop]# ssh node1 mkdir /var/hadoop
    hadoop]# ssh node2 mkdir /var/hadoop
    hadoop]# ssh node3 mkdir /var/hadoop
     
    3)配置hdfs-site文件
    hadoop]# vim hdfs-site.xml
    <configuration>
     <property>
            <name>dfs.namenode.http-address</name>
            <value>nn01:50070</value>
        </property>
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>nn01:50090</value>
        </property>
        <property>
            <name>dfs.replication</name>
            <value>2</value> //存两份,总数
        </property>
    </configuration>
     
    4)同步配置到node1,node2,node3
    //同步的主机都要安装rsync
    hadoop]# ssh node1 yum –y install rsync 
    hadoop]# ssh node2 yum –y install rsync 
    hadoop]# ssh node3 yum –y install rsync
    hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/ root@192.168.1.$i:/usr/local/hadoop/ -e 'ssh' & done
    [1] 23260
    [2] 23261
    [3] 23262
     
    5)查看是否同步成功
    hadoop]# ssh node1 ls /usr/local/hadoop/
    bin
    etc
    include
    lib
    libexec
    LICENSE.txt
    NOTICE.txt
    bb
    README.txt
    sbin
    share
    aa
    ...
     
    2.3 格式化
     
    hadoop]# cd /usr/local/hadoop/
    hadoop]# ./bin/hdfs namenode -format  //格式化 namenode
    hadoop]# ./sbin/start-dfs.sh        //启动
    hadoop]# jps        //验证角色
    11009 Jps
    10707 NameNode
    10894 SecondaryNameNode
     
    hadoop]# ./bin/hdfs dfsadmin -report    //查看集群是否组建成功
    Live datanodes (3):  //有三个角色成功
     
    #########################
    知识点整理:

    01:大数据运维:运维+大数据管理软件的技能
    指无法在一定时间内用常规软件工具进行捕捉、管理和处理数据集合,需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
    是指从各种各样类型的数据中,快速获得有价值的信息。

    大数据的作用:
    调整相关经营策略
    预测相关发展趋势
    大规模数据处理

    大数据相关特性:
    大体量:volume
    多样性:variety
    时效性:velocity
    准确性:veracity
    大价值:value

    02:Hadoop
    是一种分析和处理海量数据的软件平台,Java开发,提供分布式基础架构。
    高可靠性、高扩展性、高校性、高容错性、低成本。

    常用组件:
    HDFS:分布式文件系统(核心组件,存储)
    MapReduce0(分布式计算框架)(核心组件)
    Yarn:集群资源管理系统(核心组件,集群资源管理系统)
    Zookeeper:分布式写作服务
    Hbase:分布式列存储数据库
    Hive:基于Hadoop数据仓库
    Sqoop:数据同步工具
    Pig:基于Hadoop的数据流系统
    Mahout:数据挖掘算法库
    Flume:日志收集工具

    03:HDFS(分布式文件系统)
    Client:切分文件,访问HDFS,与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。

    角色:
    Namenode:Master主节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理所有客户端请求。

    Secondarynode:主节点小秘,定期合并fsimage(数据块命名空间、存储信息)和fsedits(修改后的数据块:源数据+新数据,类似前端盘),推送给NameNode;紧急情况下,可辅助恢复NameNode。

    Datanode:数据存储节点,存储世界的数据;汇报存储信息给NameNode。

    Block:128MB,每块可以多个副本。

    HDFS结构:(NameNode一般一台)
    存数据:Client(数据切块)-> ..数据存哪..->NameNode-> ..DateNode..Client->DataNode(存储数据)
    取数据:Client(数据切块)-> ..数据在哪..->NameNode-> ..DateNode..Client->DataNode(获取数据)

    04:MapReduce结构 分布式计算框架
    把一个复杂的问题,分解成若干个简单的问题,多台机器共同计算,最终合并汇总。
    角色:
    JobTracker:切分任务段,数据总监控、错误处理等(管理节点,一台)
    TaskTracker:分单任务(多台,干活)
    Map Task:解析每条数据记录,传递给用户编写的map()并执行,将输出结果写入本地磁盘。(如果map-only)作业,直接写入HDFS)
    Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。

    05:Yarn结构:Hadoop的一个通用资源管理系统
    角色:
    ResourceManager:Master,皇上,处理客户端请求,启动、监控ApplicationMaster,监控NodeManager,资源分配与调度。

    NodeManager:钦差大臣,皇上安排的助手,每个结点上资源管理,处理ResourceManager的命令,处理来自ApplicationMaster的命令。(每个ApplicationMaster有多个Container在NodeMaster上运行)

    ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控与容错(表示每个应用)。

    Container:对任务运行环境的抽象,封装了CPU、内存等;多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度。

    06:Hadoop三种模式
    单机模式:一台机器部署
    伪分布式:所有的角色都安装在一台机器上,学习和测试(类似数据库的多实例)
    完全分布式:多台机器部署

    ##########################

  • 相关阅读:
    常用模块
    python里面的奇技淫巧
    day_06、面向对象(二)
    day_06、面向对象
    day_06、递归、二分查找
    day_05、内置函数、匿名函数
    day_05、迭代器、生成器
    day_04、函数
    php调用webservice接口
    php在命令行输出进度条
  • 原文地址:https://www.cnblogs.com/luwei0915/p/10496577.html
Copyright © 2020-2023  润新知