• Hadoop笔记(一)


    1.大数据的概述

     大数据:巨量数据、海量数据,首先在数据的量上达到一定的规模,首先是人或者计算机在不合理时间内是不能够实现的数据量。

    2.特点:数据量比较大,数据类型多样化、处理速度问题

    3.大数据平台分为硬件和软件

    4.hadoop出现:数据的不断加大,单机的计算机无法在硬盘、网络IO,计算机的CPU,内存存储上是无法达到的情况下出现的一种处理方式。

    5.hadoop是Apache基金会所开发的分布式的基本跨架,可以在不了解分布式的情况下开发分布式的程序,充分的利用集群的高速运算和存储。

    6.解决的问题:大数据存储大,数据分析是hadoop的两大核心,HDFS和mapreduce

    7.HDFS:可扩展、容错、高性能的分布式文件管理文件系统,异步开发一次开发多次使用,主要用于存储。

    8.mapreduce为分布式的计算框架,主要包含map和reduce过程复杂对HDFS中的数据进行计算。

    9.hadoop的优点:高可靠性、高性能、高扩展性、高效性、容错性、低成本。

    HDFS


    1.hdfs是一个分布式的文件系统,可以进行创建、删除、移动、重命名文件或者文件夹与linux的文件系统类似。

    2.它由多个节点组成:nameNode(一个)、DataNode(多个)

       nameNode :只有一个,用于nebula提供元数据的服务,

       secondary Namenode:名称节点,帮助节点用与整合和恢复

       DataNode:他为hdfs提供真正的存储。

    注意:在hadoop中nameNode只有一个,在hadoop2.X之后,有了很大的改善

    3.存储文档在HDFS中。被分割成块,然后这些块以流的方式复制到各个节点,存储在不同的机架上,默认块的大小是128MB,备份的数目,这是可以用客户设置的。内部使用网络通信

    4.NameNode通过在HDFS机架中单独机架上运行,负责文件系统的客户端请求。

     

  • 相关阅读:
    Android Architecture Components
    adb命令
    Dagger2 scope
    Dagger2学习资源
    Dependency Injection学习笔记
    什么是ADB
    使用AndroidStudio dump heap,再用 Eclipse MAT插件分析内存泄露
    Dagger学习笔记
    linux & shell & nginx & Docker Kubernetes
    Go 目录
  • 原文地址:https://www.cnblogs.com/kw28188151/p/8196654.html
Copyright © 2020-2023  润新知