• Hadoop学习第一天


    1.hadoop量大,数目多。

    存储:分布式,集群的概念,管理(主节点、从节点),HDFS。

    分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。

    来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).

    HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。

    HDFS默认存储是三份,解决硬件和网络故障问题。

    HDFS思想:文件单次写入,多次读取,有文件副本

    MR思想:分而治之,排序优化

    hadoop1.x核心:hadoop common,HDFS,MapReduce

    hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)

    hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),              

                               HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

                  Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

    HDFS(分布式文件系统)

    1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,

    2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。

    MapReduce(并行计算框架)

    1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行

    2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。

    以上5个是Apache hadoop守护进程

    NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。

    SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息

    DataNode:本地文件系统存储文件块数据和数据校验和。

    jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。

    TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。

    jobTracker和TaskTracker通过心跳heartbeat进行交互

  • 相关阅读:
    Linux下安装Tomcat服务器
    记一次操蛋的:Could not find parameter map java.lang.Long
    在IDEA中使用MyBatis Generator逆向工程生成代码
    理解jquery的$.extend()、$.fn和$.fn.extend()
    在 Win10 系统下安装 JDK 及配置环境变量的方法
    怎样设置才能允许外网访问MySQL
    基于JavaMail的Java邮件发送:简单邮件发送Demo
    前端学习第57天 背景样式、精灵图、盒子模型布局细节、盒子模型案例、w3c主页
    前端学习第56天高级选择器、盒子模型、边界圆角、其他属性
    前端学习第55天 css三种引用、‘引用的优先级’、基本选择器、属性、display
  • 原文地址:https://www.cnblogs.com/yuliantao/p/5332847.html
Copyright © 2020-2023  润新知