• hadoop基本认识


    还是hadoop专有名词进行说明。

    Hadoop框架中最核心设计就是:HDFS和MapReduce.还有yarn

    HDFS提供了海量数据的存储。(分布式文件系统)

    MapReduce提供了对数据的计算.(分布式计算框架)

    Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

    NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

    NameNode同时保存了文件系统运行的状态信息. 

    DataNode中存储的是被拆分的blocks.

    Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

    JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

    TaskTracker负责某一个map或者reduce任务.

    其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。

    后面会写一些hadoop在工作中常用的命令。和hadoop开发上的问题。

  • 相关阅读:
    计算机视觉
    深度学习2
    pytorch
    Django笔记
    深度学习
    numpy&pandas
    信息安全与密码技术
    Win10 alt+f4默认关机修改
    (转)Spring Boot 解决跨域问题的 3 种方案
    用 alibaba 的 fastjson 将 list 或 map 转为 json 字符串
  • 原文地址:https://www.cnblogs.com/xubiao/p/5344793.html
Copyright © 2020-2023  润新知