• Hadoop初步简介


    Hadoop产生背景:

    传统方式,我们使用数据库来对数据进行管理。可是随着数据量的增加,我们要对这个数据库中的海量数据进行处理,

    从中提取出有效的信息,这时候面临的问题随之而来:

    1.海量数据读取,采用多个硬件读取,如果硬件故障了怎么办?

    2.  1个磁盘读取的数据可能和另外99个磁盘读取的数据合并起来才能使用,如何保证这个不同数据组合的正确性?

    这便是Hadoop要解决的问题。Hadoop使用了HDFS分布式文件系统,计算架构Map reduce以及结构化数据处理的Hbase。基于zooKeeper,

    pig,hive等,打造的一个海量数据提取分析的 解决方案。

    Hadoop与数据库的区别:

    1.为什么不使用数据库而是Hadoop? 因为磁盘IO,寻址空间慢于传输速率。如果继续采用数据库方式,数据访问模式受限于磁盘寻址。

    而我们知道,磁盘寻址的速度是远远慢于数据传输的速率。

    2.Map reduce适用于对整个数据集分析,数据大小PB级别,访问为批处理,更新为一次写入多次读取。

      数据库适用于更新和查询。数据大小GB,访问为批处理,更新为多次读写。

    mapReduce具体场景举例:

    web服务器日志:客户端的主机名带有全名出现,每次都会出现很多次。   mapreduce适用于分析各种日志文件。

    MapReduce还解决了某个进程失败时,可以将任务安排到其他机器上。

    Hadoop划分层级:

    Core

    Avro

    mapreduce

    HDFS

    Pig

    Hbase

    Zookeeper

    chukwa

  • 相关阅读:
    centos7使用supermin制作centos7的docker镜像包
    Linux ip netns 命令
    ip命令讲解
    openstack API应用用
    在EF6.0中打印数据库操作日志
    EF记录统一添加创建,修改时间
    Inner Join and Left Join 与条件的结合
    字符串分割
    居中方案
    移动 前端 框架
  • 原文地址:https://www.cnblogs.com/patatoforsyj/p/10545697.html
Copyright © 2020-2023  润新知