• hadoop 概述


    一, hadoop 的 安装:

      修改 namenode 地址

      修改 datanode 地址

      修改JAVA_HOME

    二  hdfs

      hdfs 分布式文件 系统。 namenode  存放在数据的元文件(文件名相关的信息)。datanode 存放着数据真实的内内容。 hadoop 启动 以后 。namenode 先启动,然后 datanode 启动,并且 datanode 上报自己管理的文件数据块 给 namenode。datanode  上报的是数据编号。 namanode 里面存的 文件名和文件 由那些编号的数据库块 组成。当 nama node 控制着 datanode的 数据库 副本关系。

    datanode 数据块  block 默认大小是 64M (2.0 默认 128M),,也就是说一个数据最小占用  64M 硬盘。每次有数据修改的时候那么node先追加操作 到edits 文件,然后等到一定时间以后 由 secondary namenode 吧edits  的变化 持久化到 fsimge 文件。这时候 name node 的新修改。是写到一个新的edits 文件。( name node 吧 edits  传输给  secondary namenode ,然后 由 secondary namenode 合并 edits  修改到 fsimage ,然后把这个新的 fs image 回传给 namenode )

    三  mapReduce

      map 是分

      reduce 是合

      mapReduce 是一种离线的大数据计算方案。

      spark 是一种基于内存的大数据计算方案。

      storm 是一种 流式 的 大数据计算方案。

      

      

    四 namenode 的  高可用

      2.0 以后 hadoop 加入了 namenode 的 高可用。namenode(active) 分为 主 和 从(standby) ,主的 对外提供服务,如果过主挂了,那么 剩下的 从 节点中会通过 zookeeper 的 投票选举出一个新的主。

      zookeeper 通过心跳机制(ZKFC) 检测着 每一个 namaname 的状态。 namenode 不在把 源数据 存在 本地磁盘,而是存在 journal node 上面, 多个journal node 是一个集群。并且是高可用的。主 从 name node 共享着这些 journal node。journal node 代替了  secend marster node。 

    五 namenode 的单机 解决方案 , federation

       多个 namenode 同时 对外提供服务。每个节点 保存着一部分的 元数据。 并且他们共享着 相同的 datanode 。客户端选着一个文件的 元数据 是放到哪个 namenode 上面去。

    六 资源调度 yarn

       yarn 分成2 部分

        ResourceManger:负责 这个集群的资源调度和管理  只有一个

        AplicationMater(nodeManger);负责任务相关的事务   有多个

      yarn 使得多个计算框架可以在同一个集群上运行

      在 MRv2 上面 mr 运行在 yarn 上。废除了 jobtracker 和 tasktracker 

    七 hadoop 2.0 高可用集群 配置步骤

        1 配置 javaHOME hadoop-env.sh
        2 指定 集群名称 cpre-site.xml
        3 配置 集群有哪些 namenode cpre-site.xml
        4 配置 namenode 的 rpc 和http 访问地址和 端口
        5 配置 journal node edits 目录和地址
        6 配置 客户端 ha 提供类
        7 配置 ssh fencing
        8 配置 journal 工作目录 hdfs-site.xml
        9 配置 开启自动切换 hdfs-site.xml
        10 配置zk 集群 cpre-site.xml

        11 配置 data node 数据 目录

        12 配置  slaver  

      启动顺序

        1 journal node

        2 格式化 namenode 数据目录

        3 启动那个 格式化了的 namenode

        4 在没有 没有格式化的 namenode  机子上 拉取 格式化的namenode 的 数据文件。(检查是否有数据文件生成)

        5 停止所有服务

        6 初始化 zkfc

        7 在启动一个节点注册zkfc

        8 启动所有服务。

    hadoop 包含的东西:

        

      

  • 相关阅读:
    RS-232 vs. TTL Serial Communication(转载)
    UART to Serial Terminal(转载)
    UART Explained(转载)
    Gprinter热敏打印机光栅位图点阵数据解析工具
    WinCE非通用调试工具汇总
    WinCE下GPRS自动拨号软件(GPRS AutoDial)
    WinCE项目应用之车载导航
    mysql创建临时表,将查询结果插入已有的表
    mysql利用navicat导出表结构和表中数据
    mysql查看表的属性 mysql将查询结果给临时变量
  • 原文地址:https://www.cnblogs.com/cxygg/p/9697333.html
Copyright © 2020-2023  润新知