• Hadoop总结:


    Hadoop是什么?

    1. 狭义上:
                    HDFS:分布式文件存储系统
                    MapReduce:分布式计算框架
                    YARN:资源管理任务调度
    1. 广义上:
                    特指apache一款由java开发,开源的大户数据处理平台软件
                    hadoop生态圈,提供大数据一站式解决方案,大数据软件几乎都有!
     

    hadoop 的发展:

    Google三篇论文  之父--cutting(卡大爷)

     

    hadoop集群的搭建:

    Hadoop集群介绍:

    发行版本:

            社区版:apache官方版
            商业版:cloudera---CDH

    版本演化:

               1.x--2.x(高阶版本)---3.x
     

    hadoop集群:【都是标准的主从集群   逻辑上分离 物理上在一起】

            hdfs集群(解决分布式文件存储问题):
                               主角色:namenode
                              从角色:detanode
                              主角是辅助角色:secondarynamenode
     
            yarn集群(资源调度任务管理):
                               主角是:resourcemanager
                               从角色:nodemanager
                 
            MR集群(其实没有):
                               是在代码层面组件,本身就是java程序
     

    1:服务器环境准备

                 时间同步 防火墙 免密登录 hosts映射 jdk

    2:安装包编译

     2.1:为什么要编译

          •   官方只提供源码包 需要自己编译
          •   软件运行某些特性跟操作系统相关 结合具体操作系统编译符合它版本的软件
          •   修改源码中某些属性

    3:安装包目录结构

     基本管理脚本目录------------bin
     启动关闭脚本-----------------sbin
     配置文件目录-------------------etc
     编译后jar 官方自带示例----share
     

    4:配置文件

     shell脚本---------hadoop-env.sh 导入java_home
     xml文件------------core hdfs mapred yarn---site.xml(用户自定义配置文件) xxx---default.xml(默认配置文件)
     slaves-------------配合脚本一键启动 hosts白名单机制

    5:namenode format

     首次启动hdfs 只能一次 namenode所在机器上  
      hadoop namenode -format
     初始化操作 创建hadoop工作相关目录和文件

    6:hadoop集群启动

     单节点逐个启动

    hadoop-daemon.sh start|stop 进程名字 

    yarn-daemon.sh start|stop 进程名字

     脚本一键启动

      免密登录 slaves
                     start-dfs.sh   
                     start-yarn.sh     
                     start-all.sh  

    7:web ui

     hdfs namenode 50070
     yarn resourcemanager 8088
     

    hadoop功能:

    jobhistory:查看已经运行历史的job程序

    hdfs垃圾回收机制:

                            开启垃圾回收站 把删除的文件首先放置在回收站中 等待配置的时间结束 进行真正的数据删除
     
     

    如何模拟实现分布式文件系统:

    分布式:

    元数据管理:

    分块存储:

    副本机制:

    抽象目录树结构:    

    画图介绍:

     

                        



  • 相关阅读:
    hive分区学习
    pyspark的学习
    往hive表中插入数据以及导出数据
    【Pytest学习3】setup和teardown简单用法,fixture里面的scope等于setup,用yield等于teardown
    【Pytest学习2】 pytest用例设计规则,terminal中使用常见命令行参数,pycharm中使用常见的命令行参数
    Jmeter响应内容显示乱码问题的解决办法
    Jmeter(三)测试计划和线程组
    Jmeter(二)Jmeter目录介绍 & 元件介绍
    JMeter之Ramp-up Period(in seconds)说明
    badboy云盘下载链接
  • 原文地址:https://www.cnblogs.com/TiePiHeTao/p/11503963.html
Copyright © 2020-2023  润新知