• hadoop学习笔记


     HADOOP学习笔记


    一,对Hadoop的基本理解

            Hadoop是apache旗下的一套开源的软件平台,主要是利用服务器集群,根据用户的自定义的业务逻辑,对海量数据的分布式处理

            这里讲一下分布式软件系统:软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信(RPC:远程过程调用)进行协作,实现最终的整体功能。大白话就是说:分而治之

            Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

           

           

    二,Hadoop的结构

             Hadoop的核心组件有:HDFS(分布式文件管理系统),YARN(运算资源调度系统),MAPERDUCE(分布式运算编程框架)。HADOOP通常是指一个更广泛的概念——HADOOP生态圈。

            除此之外还有一些重点组件:HIVE(基于大数据技术sql数据库管理工具),HBASE(基与Hadoop的分布式海量数据库),ZOOKEEPER(分布式协调服务基础组件),Mahout(基于mapreduce/spark/flink等分布式运算框架的机器学习算法库),Oozie(工作流调度框架),Sqoop(数据导入导出工具),Flume(日志数据采集框架)等。

    三,对Hadoop的集群理解

            Hadoop的集群总来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但是物理上常在一起。

            HDFS集群:负责海量数据的储存,集群中的主要角色有NameNode和DataNode

            YARN集群:负责海量数据运算是的资源调度,集群中的角色有ResourceManager和NodeManager

            MAPREDUCE:其实就是一个应用程序开发包,处理大量的半结构化数据集合的编程模型。与Hadoop相互独立,而又能相互配合工作。


  • 相关阅读:
    AngularJs学习笔记--unit-testing
    AngularJs学习笔记--Managing Service Dependencies
    AngularJs学习笔记--Injecting Services Into Controllers
    AngularJs学习笔记--Creating Services
    双11抢券,写一个自动打开页面的html,仅仅是设定时间打开抢券的页面
    如鹏网学习笔记(四).Net常用类库
    如鹏网面试题(基础1)
    如鹏网学习笔记(十五)ASP.NET MVC核心基础笔记
    如鹏网学习笔记(十四)ASP.NET
    如鹏网学习笔记(十三)EasyUI
  • 原文地址:https://www.cnblogs.com/songweideboke/p/9775948.html
Copyright © 2020-2023  润新知