• 大数据笔记01:大数据之Hadoop简介


    1. 背景

    随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢

      单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。

    2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为:

    (1)MapReduce

    (2)BigTable

    (3)GFS

    技术革命性:

       革命性变化01:成本降低,能使用PC,就不用大型机和高端存储。

       革命性变化02:软件容错硬件故障视为常态,通过软件保证可靠性。

       革命性变化03:简化并行分布式计算,无须控制节点同步和数据交换。

    但是google只是发表了相关的技术论文,没有开放源代码

    3.幸运的是,一个模仿了Google大数据技术的开源实现来了,他就是:

    Hadoop

    那么我们有必要说明一下Hadoop的功能与优势:

    (1)首先Hadoop是什么?

    Hadoop是一个开源的分布式存储分布式计算的平台。

    (2)为什么Hadoop可以进行分布式存储 和 分布式计算?

    这是因为Hadoop里面包括两个核心的组成:

    • HDFS :分布式文件系统,存储海量的数据

    • MapReduce :并行处理的框架,实现任务分解和调度

    (3)Hadoop可以用来做什么呢?

    搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务。

    (4)Hadoop的优势

    • 优势1:高扩展(理论上无限)

    • 优势2:低成本

    • 优势3:成熟的生态圈(非常丰富的工具链)

    这些大量的工具是围绕Hadoop衍生出来的,它们的存在使得Hadoop变得更加高效和方便。

    (5)Hadoop的应用情况

    目前国内和国外很多大公司都是使用Hadoop搭建这个大数据平台。

    (6)Hadoop已经成为业界大数据平台搭建的首选,同时Hadoop的人才的需求也越来越大。

  • 相关阅读:
    Comprehend-Elasticsearch-Demo5
    Mxnet使用TensorRT加速模型--Mxnet官方例子
    Mxnet模型转换ONNX,再用tensorrt执行前向运算
    MxNet模型转换Onnx
    基于Flask-APScheduler实现添加动态定时任务
    Golang习题
    算法题
    Celery使用指南
    flask拓展(数据库操作)
    flask进阶(上下文源管理源码浅析)
  • 原文地址:https://www.cnblogs.com/hebao0514/p/4813505.html
Copyright © 2020-2023  润新知