• Hadoop学习笔记


    ————厦门大学mooc:大数据技术原理与应用

    两大核心:

    分布式文件系统(HDFS)、分布式并行框架(MapReduce)

    hadoop的特性:

    1.高可靠性:Hadoop平台采用冗余副本机制

    2.高效率

    3.很好的扩展性

    4.高容错性

    5.成本低

    Hadoop的结构:

    Hive:在Hadoop中实现数据仓库的功能,可支持SQL语句(通过Hive转换成MapReduce语句)

    Pig:实现流式处理,提供类似SQL的查询语言:Pig Latin(轻量级)

    Oozie:调度完成不同的作业

    zookeeper:负责分布式锁、集群管理等

    HBase:支持随机读写和实时应用

    Flume:日志收集,如收集实时性的流

    Sqoop:用于在Hadoop与传统数据库之间进行数据传递

    Ambari:部署、管理

    3.1分布式文件系统HDFS

    两大核心问题:分布式存储->HDFS、分布式处理->MapReduce

    HDFS已实现的目标:

    兼容廉价的硬件设备、实现数据的读写、支持大数据集、支持简单的文件模型、强大的跨平台兼容性

    HDFS的局限性:

    1.不能满足实时的数据处理需求(HBase可解决)

    2.无法高效存储大量的小文件

    3.不支持多用户写入及仍以修改文件(只允许追加、不允许修改)

    HDFS中的核心概念:(降低分布式节点的寻址开销、比普通文件系统的块大)

    HDFS中采用抽象块的概念设计的好处:

    1.支持大规模文件存储

    2.简化系统设计

    3.适合数据备份

    HDFS中的名称节点(name node)和数据节点(data node):

    名称节点存储元数据,元数据包括:

    名称节点的结构:

    名称节点的运作过程:

    第二名称节点(secondary name node) :

    1.考虑到性能+占用内存:解决EditLog不断增大的问题

    2.作为名称节点的冷备份(冷,意味着名称节点发生故障后,第二名称节点还要做数据恢复的工作,必须停止一段时间,不能马上恢复[在1.0版本中存在的问题])

    数据节点:

    与客户端的交互过程:

    HDFS体系结构的局限性:

    HDFS的存储原理:

    1.冗余数据保存的问题

    冗余因子

    带来优点:a.加快数据传输速度(并行)

         b.容易检查数据错误

         c.保证数据可靠性

    2.数据保存策略问题

    数据块的方式:相应的存放策略

    数据块的读取:就近读取

    3.数据恢复的问题

    名称节点出错:第二名称节点顶替

    数据节点出错:

    数据本身出错:校验码检查,出错则进行冗余副本的再次复制

    HDFS读取数据的示例:

    Hadoop中对应的实现:

    其中,DFInputStream与名称节点打交道;FSDataInputStream与客户端打交道

    读过程的具体实现:

    HDFS写数据过程:

    HDFS的编程实践

    4.1HBase

    Bigtable:

    优点:可支持PB级别的数据、具有非常好的扩展性能

    HBase:是BigTable的一个开源实现。

    HBase的特点:高可靠、高性能、面向列、可伸缩,是一个分布式数据库,可以用来存储非结构化和半结构化的松散数据。

    HBase的访问方式:

    4.2HBase的数据模型

  • 相关阅读:
    5 -- Hibernate的基本用法 --5 1 持久化类的要求
    5 -- Hibernate的基本用法 --5 深入理解持久化对象
    Java -- POI -- 随笔汇总
    jdk 自带的数据库Derby使用
    SpringMVC中 -- @RequestMapping的作用及用法
    Hibernate -- Dao层 -- CURD -- 随记
    JAVA WEB -- request
    SpringMVC -- @RequestMapping -- 随记
    Navicat -- Oracle -- 错误锦集
    Tomcat -- 启动错误 -- 解决锦集
  • 原文地址:https://www.cnblogs.com/cellphone7/p/10063440.html
Copyright © 2020-2023  润新知