• 大数据Hadoop、Spark等名词释义


    大数据技术本质上解决4个核心问题:存储、计算、查询、挖掘本文主要针对前三点经常出现的相关名词进行释义。

    背景

    大数据技术先驱Google发表了:《Google file system》《Google MapReduce》《Google BigTable》。Apache软件基金会根据这三本秘籍研究出了hadoop技术并开源推广。从此大数据分布式计算技术层出不穷,技术革命主要围绕计算和查询的性能展开,在存储上并没有太大变化。

    鼻祖hadoop是做什么的?

    Hadoop就是一个分布式计算的解决方案。

    比如1亿个1相加。单台计算机的处理方式是:做一亿次的循环每次+1。分布式的处理方式是:用1万台计算机,每个计算机只需计算1万个1相加,再有一台计算机把1万台计算机的结果相加。计算速度就提高了1万倍。

    这可能是一个不恰当的例子。但所谓分布式、云计算,大抵也就是这么回事了。

    分布式计算技术经历的时代

    hadoop1.0时代

    Hadoop1.0=HDFS(数据存储)+ Mapreduce(数据处理)

    HDFS:Hadoop Distributed FileSystem。传统的文件系统是单机的,不能跨机器,比如oracle、sqlserver。HDFS则能让大量数据横跨成百上千台机器,并且它让你看到的是一个文件系统而不是很多文件系统。比如你要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

    MapReduce:俗称MR,只有Map和Reduce两个计算过程,Map可以理解为几百台机器同时统计,Reduce则是将几百台机器的结果汇总。

    大数据Hadoop、Spark等名词释义

    hadoop2.0时代

    Hadoop2.0=HDFS(数据存储)+ Mapreduce(数据处理)+Hive(SQL翻译器)+YARN(资源管理系统)

    Hive:可以把HDFS数据文件映射为数据库表,并且提供HQL(类SQL)查询功能。它是数据仓库工具,本身不做数据存储。它构建在分布式存储系统HDFS之上,通过其查到的表数据本质上来说还是HDFS的文件。Hive充当了MapReduce(开发语言是Java)的翻译官,所以它最大的作用是解决了非开发人员的使用问题。

    YARN:负责整个系统的资源管理和分配,每一次任务都需要申请内存等资源,同时也可以监控管理程序应用。

    大数据Hadoop、Spark等名词释义

    Spark时代

    Spark=HDFS(数据存储)+Spark-Core(数据处理)+Spark-SQL(SQL翻译器)

    一句话概括,比hadoop时代的计算速度更快。Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主要由Databricks公司进行维护(公司创始员工均来自AMPLab)。组件Spark-Core对标hadoop的MapReduce,组件Spark-SQL对标hadoop的Hive,组件Spark-Streaming对标hadoop的Storm。

    大数据Hadoop、Spark等名词释义

    flink时代

    Hadoop创始人apache也熟知自己产品的短板,所以一直在默默开发flink,以解决计算速度和其他问题。只是让Spark抢先一步了。也许不久后,flink就能席卷市场。

    数据分析师-Hive应用

    在SQL掌握的基础上应用Hive工具做数据查询并不难,参考:

    https://www.cnblogs.com/huifeidezhuzai/p/9251969.html

    https://www.maiyewang.com/2019/04/09/hive总结-3/

     

    通俗易懂的比喻说明

    https://www.zhihu.com/question/27974418?sort=created第6个回答喜羊羊与灰太狼

  • 相关阅读:
    嘉年华专访 | 我有故事,你有酒吗?
    adminset 管理员认证
    adminset 管理员权限
    C/C++ scanf 函数中%s 和%c 的简单差别
    C/C++ scanf 函数中%s 和%c 的简单差别
    Boost Log 基本使用方法
    Boost Log 基本使用方法
    Boost Log 基本使用方法
    Boost Log 基本使用方法
    mybatis if test标签的使用
  • 原文地址:https://www.cnblogs.com/myshuzhimei/p/11713063.html
Copyright © 2020-2023  润新知